Está en la página 1de 11

Red de Revistas Cientficas de Amrica Latina, el Caribe, Espaa y Portugal

Sistema de Informacin Cientfica

Castro Heredia, Lina M.; Carvajal Escobar, Yesid; vila Daz, lvaro Javier ANLISIS CLSTER COMO TCNICA DE ANLISIS EXPLORATORIO DE REGISTROS MLTIPLES EN DATOS METEOROLGICOS Ingeniera de Recursos Naturales y del Ambiente, nm. 11, enero-diciembre, 2012, pp. 11-20 Universidad del Valle Cali, Colombia
Disponible en: http://www.redalyc.org/articulo.oa?id=231125817001

Ingeniera de Recursos Naturales y del Ambiente, ISSN (Versin impresa): 1692-9918 revistaeidenar@univalle.edu.co Universidad del Valle Colombia

Cmo citar?

Nmero completo

Ms informacin del artculo

Pgina de la revista

www.redalyc.org
Proyecto acadmico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto

ANLISIS CLSTER COMO TCNICA DE ANLISIS EXPLORATORIO DE REGISTROS MLTIPLES EN DATOS METEOROLGICOS CLUSTER ANALYSIS AS A TECHNIQUE FOR EXPLORATORY ANALYSIS OF MULTIPLE RECORDS ON WEATHER DATA

Lina M. Castro Heredia, M.Sc., Candidata a Ph.D. Pontificia Universidad Catlica de Chile, Santiago, Chile lecastro@uc.cl Yesid Carvajal Escobar, Ph.D. Profesor Titular Escuela de Ingeniera de Recursos Naturalesy del Ambiente, Universidad del Valle Cali, Colombia yesid.carvajal@correounivalle.edu.co

RESUMEN Se presenta con este estudio la aplicacin del Anlisis Clster (AC) como mtodo exploratorio de datos en registros mltiples de informacin pluviomtrica. Se emple el anlisis multivariado en 150 estaciones de medicin de precipitacin mensual localizadas en el departamento del Valle del Cauca, Colombia. Se utilizaron las tcnicas de Encadenamiento Simple, Ward y Centroide como mtodos jerrquicos de aglomeracin y la Distancia Eucldea al Cuadrado (DEC) como medida de similitud. El objetivo principal del estudio consisti en comprobar la hiptesis que las estaciones atpicas, es decir, aquellas que el AC agrupa individualmente (cambio en la varianza y la media), son de tipo no homogneo. Se utiliz un anlisis exploratorio grfico y cuantitativo con series univariadas para comprobar dicha hiptesis. Los resultados mostraron que mediante el AC se pueden obtener las estaciones no homogneas, como tambin las estaciones cuyo comportamiento no es representa-

lvaro Javier vila Daz, Ing. Investigador Grupo IREHISA. Universidad del Valle, Cali, Colombia. alvaroavila360@correounivalle.edu.co _____________________
*Recibido: 9 Septiembre 2012 *Aceptado Octubre 8 2012

pp. 11-19

Facultad de Ingeniera EIDENAR

11

ISSN 1692-9918 Ing. Recur. Nat. Ambient.

tivo de la muestra, dado que los grupos formados por esta tcnica tienden a contener elementos muy parecidos entre s, como los de mxima homogeneidad, excluyendo los que no pertenecen a esta clasificacin.

PALABRAS CLAVE

deficientes, tanto en calidad como en cantidad. Las series pluviomtricas siguen presentando falta de informacin, cambios, tendencias y datos atpicos; estas condiciones pueden afectar los resultados obtenidos en la modelacin o simulacin. Para el uso correcto de la IP en la ingeniera de los recursos hdricos, sta debe cumplir con el supuesto de estacionariedad, consistencia y homogeneidad, sin dejar aparte la independencia. Existen procesos naturales y antropognicos que alteran significativamente la IP y que pueden ocasionar cambios y tendencias en las series de tiempo analizadas; es importante saalar que estas variaciones tambin pueden deberse al cambio climtico, un fenmeno relativamente reciente que est alterando el clima y la distribucin temporal y espacial de la precipitacin, ocasionando recurrencia de sequas e inundaciones. Con el fin de determinar cambios y/o tendencias en la IP se hace necesario el Anlisis Exploratorio de Datos (AED). El uso de la informacin sin previa evaluacin de su estructura, consistencia y homogeneidad, constituye un enfoque de caja negra que incrementa el grado de incertidumbre sobre la validez de los resultados obtenidos en cualquier experimentacin (Lobo, 2004). En los ltimos aos el uso del AC en el campo de la hidrologa ha sido exitoso; muestra de ello son las aplicaciones que ha tenido en la regionalizacin de cuencas para el anlisis de frecuencia de caudales mximos y mnimos, la estimacin de tormentas de corta duracin, la determinacin de zonas ciclnicas y la determinacin de regiones homogneas de precipitacin, entre otras (Burn & Goel, 2000; Dinpashoh et al., 2004; Rao & Srinivas, 2006). El anlisis clster es un mtodo multivariado de clasificacin que no requiere de supuestos previos (normalidad, estacionariedad, etc.) y es eminentemente exploratorio. Dado que los grupos se forman por similaridad entre los elementos que componen el mismo, se podra asumir que aquellos elementos que se agrupen solos representan diferencias significativas con el resto. Bajo esa suposicin, podra decirse que el AC puede usarse para clasificar las estaciones meteorolgicas y suponer que aquellas que se agrupan solas representan una condicin atpica con respecto a sus vecinas o presentan deficiencias en sus registros. Para comprobar la anterior hiptesis, se presenta en este estudio un anlisis exploratorio de datos utilizando AC. Una vez conseguidos los grupos y determinadas aquellas estaciones que se agrupan solas, se aplica un AED con el fin de comprobar que las estaciones que no lograron unirse a ningn grupo son atpicas. Para ello se

Anlisis cluster, Anlisis exploratorio de datos, Datos meteorolgicos, Recursos hdricos

ABSTRACT

Cluster Analysis (CA) like method of exploratory data in multiple records weather data, multivariate analysis was applied to 150 rainfall month stations located in the Valle del Cauca departamet Colombia was applied and reported in this paper. Simple Clustering techniques, Ward and Centroid such as hierarchical clustering methods and the Square of the Euclidean distance as similarity measure was used. The main objective of the study has been to prove that atypical stations are inconsistency and non-homogeneity, unvaried exploratory analysis like quantitative and graphical methods was employed to confirm this hypothesis. The outcomes showed that Cluster Analysis was successful to find non - homogeneity stations and non representative stations too, because clusters contains very similar elements to each other, avoiding maximum homogeneity elements.

KEY WORDS

Cluster Analysis, Exploratory data, meteorological data, Water resources

1. INTRODUCCIN

E l paso de los aos la recoleccin de informacin pluviomtrica (IP) ha mejorado; sin embargo, los registros en los que se basa la meteorologa aplicada son

12

Facultad de Ingeniera EIDENAR

Ingeniera de Recursos Naturales y del Ambiente - No. 11 Enero-Diciembre de 2012, Cali ISSN 1692-9918

Anlisis clster como tcnica de anlisis exploratorio de registros mltiples en datos meteorolgicos

utilizaron registros de 150 estaciones de precipitacin ubicadas en el departamento del Valle del Cauca. El artculo contiene la descripcin de la zona de estudio, un breve resumen del AC y las tcnicas de agrupacin y similitud empleadas; una descripcin terica del AED grfico y cuantitativo y, por ltimo, los resultados, la discusin y las conclusiones.

Materiales y Mtodos Para realizar el AED aplicando las tcnicas de agrupacin o anlisis clster, se procedi, en primer lugar, a estandarizar los registros de precipitacin, se estimaron los datos faltantes y, seguidamente, se aplicaron medidas de similitud (distancia eucldea al cuadrado - DEC) y, formacin de grupos jerrquicos por los mtodos de encadenamiento medio, Ward y centroide. Una vez formados los grupos y determinadas aquellas estaciones solitarias, se procedi a aplicar el AED grfico y cuantitativo para confirmar la hiptesis de que todas las estaciones atpicas son aquellas que no lograron entrar a ninguno de los grupos encontrados en el AC. El Anlisis Clster (AC) Es un mtodo estndar del anlisis multivariado que puede reducir una compleja cantidad de informacin en pequeos grupos o clsters, donde los miembros de cada uno de ellos comparten caractersticas similares (Lin & Chen, 2006). El AC se considera una tcnica eminentemente exploratoria que no utiliza ningn tipo de modelo estadstico para llevar a cabo el proceso de clasificacin (Hair et al., 1999; Peterson, 2002) y, por ello, se le podra calificar como una tcnica de aprendizaje no supervisado, es decir, una tcnica muy adecuada para extraer informacin de un conjunto de datos sin imponer restricciones previas en forma de modelos estadsticos (Barrios & Carvajal, 2006). El AC tiene por objeto formar grupos o clsters homogneos en funcin de las similitudes o similaridades entre ellos (Pea, 2002). Los grupos se forman de tal manera que cada objeto es parecido a los que hay dentro del clster con respecto a algn criterio de seleccin predeterminado (Rao & Srinivas, 2006; Hair et al., 1999). Las tcnicas de agrupamiento en el AC se pueden clasificar en dos categoras: el clster jerrquico y el no jerrquico. Los procedimientos jerrquicos consisten en la construccin de una estructura en forma de rbol. Existen dos tipos de procedimientos de obtencin de clsters jerrquicos: los de aglomeracin y los divisivos. Dentro de los mtodos jerrquicos aglomerativos se tienen: (i) mtodo de encadenamiento simple, (ii) mtodos de encadenamiento completo, (iii) mtodo de encadenamiento medio, (iv) mtodo de Ward, y (v) mtodo del centroide (Hair et al., 1999). Estos procedimientos difieren en la forma como se calcula la distancia entre los conglomerados, entre los que se encuentran la DEC, Manhattan, coefi-

2. METODOLOGA Zona de Estudio El anlisis se realiz para los registros pluviomtricos de las estaciones ubicadas en el departamento del Valle del Cauca (Figura 1). La regin se localiza en el suroccidente colombiano, comprende 42 municipios y presenta, dentro de sus lmites polticos, tres regiones bien definidas: la Costa Pacfica, el valle interandino del ro Cauca y la regin andina a la que corresponden las cordilleras Occidental y Central. Segn Escobar et al. (2006), en la Costa Pacfica las precipitaciones alcanzan hasta los 1200 mm anuales. Los periodos secos corresponden a los meses de junio, julio y agosto, con valores de precipitacin entre 0 y 50 mm mensuales, y los meses ms hmedos son septiembre, octubre y noviembre, con variacin en la precipitacin entre 100 y 200 mm mensuales. En la parte del Alto Cauca se presentan precipitaciones que varan entre los 1200 mm y los 2300 mm anuales. (registrados estos ltimos en algunas estaciones localizadas en las costas ms altas), el pramo de Santa Teresa (9C) y las mximas en la Costa Pacfica (>25C). Los factores que afectan la distribucin espacial y temporal de la precipitacin en el Valle del Cauca son debidos al patrn general de circulacin atmosfrica, el relieve afectado por la presencia de la Cordillera Occidental, la conveccin profunda, la distancia al Ocano Pacfico y la vegetacin. Actualmente en el departamento se cuenta con 150 estaciones pluviomtricas, ubicadas principalmente en el valle geogrfico del ro Cauca y administradas por la Corporacin Autnoma Regional del Valle del Cauca (CVC). Los datos utilizados en la presente investigacin son de carcter mensual, con un periodo de registro de 30 aos (1974-2003) en todas las estaciones. La IP presenta datos faltantes, los cuales no superan el 10% del total de los datos; stos fueron estimados por medio del mtodo de ponderacin normal, posterior al proceso de estandarizacin de los datos.

pp. 11-19

Facultad de Ingeniera EIDENAR

13

ISSN 1692-9918 Ing. Recur. Nat. Ambient.

ciente de correlacin de Pearson, Chevichev y Cosine. El clster por medio de tcnicas no jerrquicas no requiere de procesos de construccin de rboles; en su lugar, asignan los objetos a clsters una vez que el nmero de grupos a formar est especificado. Los procedimientos de aglomeracin no jerrquicos se denominan frecuentemente agrupaciones de k medias, k medianas y k modas. Una desventaja con respecto a la tcnica jerrquica consiste en que debe conocerse a priori el nmero de clsters a obtener, lo que implica un grado de subjetividad en el proceso (Peterson, 2002). A pesar de lo anterior, se considera un mtodo dinmico en el sentido en que los objetos dentro de los clsters se pueden mover de un clster a otro, minimizando la distancia entre objetos dentro de un mismo clster (Rao & Srinivas, 2006). Pese a las ventajas del mtodo de aglomeracin no jerrquico, en este artculo se presenta la aplicacin del mtodo jerrquico dado el inters de no querer asignar a priori el nmero de grupos a formar. A continuacin se describen las tcnicas empleadas en el anlisis clster y el mtodo de similitud utilizado. Encadenamiento medio entre grupos. Mide la proximidad entre dos grupos calculando la media de las distancias entre objetos de ambos grupos o las medias de las similitudes entre objetos de ambos grupos. Algunos autores, como Hair et al. (1999), afirman que el mtodo est sesgado a formar conglomerados con aproximadamente la misma varianza. Mtodo de Ward. Este proceso de aglomeracin tiene como objetivo establecer grupos de tal forma que la suma de los cuadrados de las desviaciones con respecto a la media de cada variable (que en este caso corresponde a la estacin pluviomtrica) es mnima para todas las estaciones al mismo tiempo. Este procedimiento tiende a combinar los conglomerados con un nmero reducido de observaciones y a formar grupos con aproximadamente el mismo nmero de grupos (Rao & Srinivas, 2006). Mtodo del centroide. En este mtodo la distancia entre los grupos se define como la distancia entre sus centroides. El centroide de cada grupo o clster es a su vez el promedio de las posiciones de todos los puntos dentro del clster. En este mtodo, cada vez que se agrupa a los individuos se calcula nuevamente el centroide; as el centroide cambia a medida que se fusionan los grupos (Hair et al., 1999). La distancia eucldea al cuadrado (DEC). Es el

cuadrado de la suma de las diferencias al cuadrado de dos elementos en la variable o variables consideradas; la distancia se expresa como:

(1)

donde

Di,j2 es el cuadrado de la DEC entre el objeto


representa el valor estandarizado de

i y el objeto j,

la variable m para el objeto i, es el valor estandarizado de la variable m para el objeto j (Castellarin et al., 2001). El AC es un mtodo multivariado sensible al uso de datos no estandarizados y, ms an, si la medida de similitud usada es la DEC, como es el caso de estudio. Pea (2002) y Castellarin et al. (2001) expresan que la falta de estandarizacin genera inconsistencias entre las soluciones clster, dado que la medida de la distancia entre objetos se ve afectada por el rango numrico de variacin entre variables. Si cada una de las variables se mide en una escala diferente, el orden de las similitudes puede variar con slo un cambio en la escala de una de ellas. Existen diversos mtodos de estandarizacin; algunos pueden ser vistos en Rao & Srinivas (2006) y Lin & Chen (2006), pero el mtodo ms usado es la conversin de cada variable a unas puntuaciones estndar restando la media y dividiendo por la desviacin estndar tpica de cada variable. Este proceso convierte cada puntuacin de los datos originales en un valor estandarizado con media cero y desviacin estndar uno (1). Una vez estandarizados los datos mensuales de las 150 estaciones de precipitacin, se procedi a calcular la DEC y a formar los grupos por los mtodos de encadenamiento medio, Ward y el centroide. En el mtodo de encadenamiento medio el proceso parte inicialmente con un mximo nmero de grupos a formar, en este caso 150; posteriormente busca el par ms cercano y se unen formando un nuevo y nico grupo, continuando de esta forma hasta que se forme un solo clster que contiene a todas las estaciones originales (Hartigan, 1975). La bsqueda del par ms cercano requiere comparar entre s todas las distancias eucldeas al cuadrado. Anlisis exploratorio univariado de informacin pluviomtrica

14

Facultad de Ingeniera EIDENAR

Ingeniera de Recursos Naturales y del Ambiente - No. 11 Enero-Diciembre de 2012, Cali ISSN 1692-9918

Anlisis clster como tcnica de anlisis exploratorio de registros mltiples en datos meteorolgicos

El AED consta bsicamente de mtodos grficos y cuantitativos que permiten visualizar grficamente y cuantificar matemticamente la estacionariedad, los cambios y las tendencias en la serie. Los mtodos grficos, como herramienta exploratoria de los datos, muestran de forma grfica las caractersticas de una distribucin, la presencia de cambios, saltos, tendencias y relaciones entre variables, que de otra manera no podran ser descubiertas (Maidment, 1993). Los mtodos cuantitativos, en cambio, hacen uso de herramientas estadsticas y matemticas para comprobar la estacionariedad, la presencia de tendencias y los cambios en los registros. Anlisis Grfico. El AED por mtodo grfico debera ser el primer anlisis a realizar antes de cualquier anlisis confirmatorio o cuantitativo. Dentro del anlisis exploratorio grfico se recomienda utilizar: (a) la grfica de serie de tiempo con el propsito de observar cambios, saltos y tendencias; (b) el diagrama de cajas, para ver grficamente estadgrafos, tales como, la mediana, la desviacin estndar y los datos atpicos; (c) la grfica de doble masa, que permite detectar cambios o errores en las series ;y, (d) la grfica de normalidad, para comprobar si la distribucin de los datos mensuales se ajusta a una distribucin normal (Castro & Carvajal-Escobar, 2006). Anlisis Cuantitativo. Despus de realizar el AED por medio grfico conviene realizar un anlisis confirmatorio con el fin de comprobar estadsticamente lo que por medio visual se detect. Para realizar esto existen numerosas pruebas estadsticas paramtricas y no paramtricas; el uso de una u otra depender de la cantidad y la calidad de la informacin disponible. Las pruebas pueden ser consultadas en detalle en Castro & Carvajal-Escobar (2010).

quedaron sin clasificacin. A todas aquellas estaciones que se agruparon solas se les aplic el AED grfico y cuantitativo con el propsito de confirmar la hiptesis inicial, las cuales se identificaron con un smbolo de aprobacin ( ).

Figura 1.Representacin de los grupos de estaciones formados 60 clusters

3. RESULTADOS Y DISCUSIN Aplicacin de Anlisis Clster En la Figura 1 se muestra, a modo de ejemplo y aplicando el mtodo de encadenamiento simple, el total de las estaciones, asignndoles un crculo a aquellas que se clasificaron en algn grupo. Segn la hiptesis inicial, aquellas estaciones que se agrupan de forma independiente representan estaciones con algn tipo de inconsistencia; esta hiptesis fue comprobada con el anlisis exploratorio y confirmatorio de datos univariado aquellas representadas con una X y a aquellas que

Se verific la aplicabilidad del AC como mtodo multivariado para el AED, comparando los resultados obtenidos de aplicar los tres mtodos jerrquicos de aglomeracin (encadenamiento medio, Ward y centroide) con los resultados del estudio realizado por CVC (2006), donde se aplicaron tcnicas estadsticas para verificar la calidad de la informacin pluviomtrica del Valle del Cauca. Se encontr que de 150 estaciones de precipitacin presentes en la zona de estudio, 37 tenan registros no homogneos desde el punto de vista grfico y cuantitativo. El resultado de la aplicacin de los mtodos jerrquicos con el uso de la DEC como medida de similitud se puede observar en la Tabla 1, en la cual se presenta el nmero de estaciones que se agrupan solas (atpicas), y de ellas, cales son no homogneas, es decir, tienen una variacin en los parmetros estadsticos como media, varianza y momentos de orden superior. A partir de estos resultados se encontro que los mtodos de encadenamiento medio y del centroide son los ms susceptibles a las estaciones atpicas y tienden a agrupar estaciones de forma independiente desde el inicio del proceso de aglomeracin. Posiblemente la razn de ello es que los

pp. 11-19

Facultad de Ingeniera EIDENAR

15

ISSN 1692-9918 Ing. Recur. Nat. Ambient.

Figura 2.Resultados grficas series de tiempo, diagramas de caja y grfico de normalidad

grupos formados en el AC tienden a contener elementos muy parecidos entre s (mxima homogeneidad) y a excluir a los que no lo son. Para los tres mtodos, a medida que aumenta el nmero de clsters aumenta el nmero de estaciones no homogneas escogidas, pero asimismo aumenta el nmero de estaciones atpicas a analizar por mtodos de exploracin univariados; algo que resultara inoperante en trminos de ahorro de tiempo. Es por ello que a partir del anlisis efectuado, se realizaron varias pruebas y se determin la mitad del nmero total de estaciones analizadas, en este caso 75, como valor ptimo de clusters para detectar el mayor nmero de estaciones no homogneas en el mtodo de encadenamiento medio. Para un agrupamiento de 75 clusters, el mtodo de encadenamiento medio permiti separar el 56.25%, que

representan 18 del total de estaciones no homogneas, mientras que el mtodo de Ward solamente el 37.5% que constituyen 12 estaciones; de otro lado, el mtodo del centroide permiti separar el 75% de las estaciones no homogneas (24), siendo ms eficiente en este sentido; no obstante, fue el menos eficiente (32.98%) al seleccionar 73 estaciones atpicas, de las cuales 24 eran no homogneas, mientras que con el encadenamiento medio, la eficiencia fue de 42.45%, al separar 43 estaciones atpicas de un total de 18 no homogneas. Anlisis exploratorio y cuantitativo de datos En la Tabla 1 se presentan los resultados del anlisis Clster; con stos se verific cuales de las estaciones atpicas obtenidas por los mtodos de encadenamiento medio resultaban ser no homogneas a partir del anlisis exploratorio unitario. Para realizar este anlisis se requiere que los datos de las estaciones no estn estandarizados; es decir, se utiliza la informacin origi-

16

Facultad de Ingeniera EIDENAR

Ingeniera de Recursos Naturales y del Ambiente - No. 11 Enero-Diciembre de 2012, Cali ISSN 1692-9918

Anlisis clster como tcnica de anlisis exploratorio de registros mltiples en datos meteorolgicos

Tabla1. Resultados del anlisis Clster. 1Estaciones atpicas, 2. estaciones no homogneas, 3. % efectividad 4. % De estaciones no homogneas

1. ESTACIONES ATPICAS, 2. ESTACIONES NO HOMOGNEAS, 3. % EFECTIVIDAD 4. % DE ESTACIONES NO HOMOGNEAS

nal registrada en las estaciones. En primera instancia se aplic el anlisis grfico usando la grfica de serie de tiempo y el diagrama de cajas como elementos visuales, los cuales permitieron determinar si la serie presentaba tendencias o cambios; adems, se eleboraron las grficas Q-Q con el fin de comprobar si los datos de cada estacin se distribuan normalmente o no, para asimismo aplicar pruebas paramtricas, o no paramtricas segn correspondiera. La prueba de normalidad usada fue la de Kolmogorov Smirnov con un nivel de significancia del 5%. La Tabla 2 muestra el resultado de las pruebas estads-

ticas aplicadas a las estaciones que se agruparon solas despus del proceso de aglomeracin. Algunas pruebas grficas muestran que la mayora de las estaciones no presentan comportamiento normal, a excepcin de Yurumangu, y cinco de ellas no son estacionarias, pues mostraron tendencias, cambios y saltos en la representacin grfica de las series de tiempo y diferencias en el valor de la mediana en el diagrama de cajas. Los resultados del anlisis confirmatorio se presentan en la Tabla 3, la cual muestra que la mayora de los regis-

Tabla 2. Resultados de las pruebas estadsticas aplicadas a las estaciones que se agruparon solas despus del proceso de aglomeracin. ES: estacionariedad , NT: no tiene tendencia segn la prueba de Spearman , 1.Spearman , 2. Bartlett, 3.Levene, 4. F Fisher, 5. Contraste de signos, 6. Rangos signados de Wilcoxon, 7. Mann Whitney, 8. Kruskal Walls, 9. Prueba t

pp. 11-19

Facultad de Ingeniera EIDENAR

17

ISSN 1692-9918 Ing. Recur. Nat. Ambient.

Tabla 3. Resultados anlisis exploratorios de datos anlisis grfico 2006). La tcnica jerrquica usada para la formacin de clsters presenta la desventaja de dar una idea equvoca al presentar combinaciones inciales indeseables que pueden persistir a lo largo del anlisis, lo que podra llevar a resultados artificiales. Para que los resultados del anlisis clster sean aceptados con mayor certeza se requieren varias aplicaciones bajo condiciones cambiantes con las estaciones atpicas seleccionadas como dudosas, recalculando nuevamente clsters o usando diferentes medidas de similitud y mtodos de aglomeracin.

4. CONCLUSIONES

ST: serie de tiempo DC: diagrama de cajas GN: grfica de normalidad PN: prueba de normalidad Kolmogorov Smirnov A: acepta la prueba R: rechaza la prueba NA: no aplica

Como tcnica de anlisis multivariado el AC puede ser muy til para reducir una compleja cantidad de informacin, pero debido a que su aplicacin es ms un arte que una ciencia se puede llegar a aplicar de forma errnea. Los mtodos de aglomeracin jerrquicos, no jerrquicos, hbridos, fuzzy, las medidas de similitud, la forma como se escoge el nmero ptimo de grupos e incluso los elementos de procedimiento, hacen que se presenten mltiples soluciones y que la decisin final sea tomada ms de manera subjetiva que de forma objetiva. El AC se asume con un notable grado de riesgo, ya que ofrece clasificaciones inexactas, incluso imponiendo grupos que realmente no existen. En la literatura consultada en muchos casos se afirma que esta tcnica es un estigma metodolgico, ya que algunas veces los grupos que se identifican no reflejan condiciones reales sino que son simples artificios estadsticos supeditados a variaciones numricas aleatorias entre clsters, cuestionando su valor como mtodo aplicativo a la investigacin debido a los resultados equvocos a los que lleva a veces su utilizacin. El resultado ms interesante obtenido con este anlisis clster fue el hecho de que la gran mayora de las estaciones que fueron identificadas como no homogneas son estaciones que presentan un porcentaje de datos faltantes mayor al 10%. Se estableci una metodologa dentro de las pruebas cuantitativas que indica que las primeras pruebas a realizarse deben ser las de estabilidad en la varianza, debido a dos razones: la primera es si la serie de tiempo es inestable en la varianza, la serie no es estacionaria y, por lo tanto, no es conveniente usar la serie para un

tros de las estaciones no se distribuyen normalmente se usaron pruebas paramtricas para el anlisis de la estabilidad de la varianza. Algunos autores, como Castro & Carvajal-Escobar (2010), recomiendan el uso de la prueba F- Fisher, sea o no sea infringida la prueba de normalidad, porque es una prueba robusta cuando se trata de probar las hiptesis alternas de la prueba; es este el caso en el que las varianzas difieren. Se comprob que efectivamente 7 estaciones (Bosque, Yurumangu, El Tigre, La Italia, Santa Teresa, Providencia y Brisas) de las 12 estaciones atpicas (las que se agrupan de forma independiente) presentan variacin en los parmetros estadsticos (media, varianza), es decir, son no homogneas. Estos resultados fueron coincidentes con los mostrados en el estudio realizado por la CVC (2006), donde se aplicaron tcnicas estadsticas para verificar la calidad de la informacin climatolgica del Valle del Cauca. Las estaciones no homogneas obtenidas del anlisis clster no pueden ser consideradas las nicas de este tipo, ya que dentro de los conglomerados formados es posible que existan estaciones con falta de estabilidad en la media o en la varianza o ambas (Barrios & Carvajal,

18

Facultad de Ingeniera EIDENAR

Ingeniera de Recursos Naturales y del Ambiente - No. 11 Enero-Diciembre de 2012, Cali ISSN 1692-9918

Anlisis clster como tcnica de anlisis exploratorio de registros mltiples en datos meteorolgicos

anlisis; la segunda, porque hay pruebas de estabilidad de la media que requieren como principio la estacionariedad en la varianza. El mtodo de encadenamiento medio permiti seleccionar ms estaciones homogneas que el mtodo del centroide, pero a su vez el mtodo del centroide fue ms eficaz en separar las estaciones anmalas. De los tres mtodos, el de Ward arroj los peores resultados.

suales de temperatura, con el fin de corregir, complementar y verificar la calidad de la informacin. Dinpashoh, Y., Fakheri-Fard, A., Moghaddam, M., Jahanbakhsh, S. y Mirnia, M. (2004). Selection of variables for the purpose of regionalization of Irans precipitation climate using multivariate methods. Journal of Hydrology 297, pp 109123. Escobar, S., Aristizbal, H., Gonzalez, H., Sandoval, M.C. y Carvajal, Y. (2006). Elaboracin y actualizacin de isolneas de precipitacin, brillo solar, evaporacin y temperatura mensual en el Valle de Cauca y la cuenca del alto Cauca. VII Congreso Colombiano de Meteorologa. Adaptacin a la Variabilidad y al Cambio Climtico. Hair, J. F., Anderson, R. E., Tatham, R. I. y Black, W. (1999). Anlisis Multivariante. 5 edicin. Editorial Prentice Hall. Madrid. Lin, G. y L. Chen. (2006). Identification of homogeneous regions for regional frequency analysis using the selforganizing map. Journal of Hydrology 324, pp 19. Lobo, D. (2004). Gua Metodolgica para la delimitacin del mapa de zonas aridas, semiridas y subhmedas secas de Amrica Latina y el Caribe. Centro del Agua para Zonas ridas y Semiridas de Amrica Latina y El Caribe CAZALAC UNESCO PHI Gobierno de Flandes.http://www.cazalac.org/mapa_alc_guia.php Maidment, D., (1993). Handbook of Hydrology. McGRAW HILL, INC. United States of America. Pea, D. (2002). Anlisis de Datos Multivariantes. Mc Graw - Hill. Espaa. Peterson, L. (2002).CLUSFAVOR 5.0: hierarchical cluster and principal-component analysis of microarraybased transcriptional profiles. Departments of Medicine, Molecular and Human Genetics, and Scott Department of Urology, Baylor College of Medicine, One Baylor Plaza, ST-924, Texas, USA. Genome Biology3:software0002.1-0002.8. Available in: http:// genomebiology.com/2002/3/7/software/0002. Rao, A. R. y Srinivas, V. (2006). Regionalization of watersheds by hybrid-cluster analysis. Journal of Hydrology, 318, pp 3756.

5. AGRADECIMIENTOS

Los autores agradecen a la Corporacin Autnoma Regional del Valle del Cauca, a la Universidad del Valle, por el apoyo al proyecto, y al Grupo de Ingeniera de Recursos Hdricos y Desarrollo de Suelos IREHISA, especialmente a Andrs Fabin Barrios por su apoyo para la realizacin de este trabajo de investigacin.

6. REFERENCIAS BIBLIOGRFICAS

Burn, D. H. y Goel, N. K. (2000). The formation of groups for regional flood frequency analysis. Hydrological Sciences Journal 45 (1), 97112. Barrios, A. F. y Carvajal, Y. (2006). Regionalizacin de ndices de aridez y agresividad climtica en Colombia utilizando anlisis multivariado. Conformacin estadstica de una base de datos nacional homognea .Tesis de grado. Universidad del Valle. Facultad de Ingeniera. Santiago de Cali Castellarin, A., Burn, D. y Brath, A. (2001). Assessing the effectiveness of hydrological similarity measures for flood frequency analysis. Journal of Hydrology 241, pp 270-285. Castro, L. y Carvajal, Y. (2010). Anlisis de tendencia y homogeneidad de series climatolgicas. Ingeniera de Recursos Naturales y del Ambiente, 9,15-25. Corporacin Autnoma Regional del Valle del Cauca (CVC) (2006) Aplicacin de tcnicas estadsticas en las series climatolgicas mensuales totales de precipitacin, evaporacin y brillo solar, y medios men-

pp. 11-19

Facultad de Ingeniera EIDENAR

19

This document was created with Win2PDF available at http://www.win2pdf.com. The unregistered version of Win2PDF is for evaluation or non-commercial use only. This page will not be added after purchasing Win2PDF.