RESUMEN
ABSTRACT
Starting from the historical information of 49 rain gauge stations, located in the
geographical Valley of the river Cauca, a classification of the stations was carried out
applying the method of nested cluster. The precipitation data has been measured
during a period 1972-1998. The three homogeneous groups for the mentioned region
has been conformed. The results were proven applying the statistical methods of
Dalrymple (1960), Wiltshire and Berán (1987b) and Discriminant Analysis of the
Principal Components (CP), using the first 10 components (Jhonson, 2000). Also the
geographical coherence of the obtained groups was verified. A comparative analysis of
the advantages and disadvantages of the different regionalization methods has been
sorted out, as well as of the benefits of the hydrometeorological information in the case
of a combined treatment of the data. Although the best alternative is the geographical
method, this it should be proven by means of a statistical test that validates the results
of the grouping.
1. ANTECEDENTES
1
Profesor Asociado Universidad del Valle Cali-Colombia. Candidato a Doctorado en Hidráulica
y Medio Ambiente. Universidad Politécncia de Valencia. Email: yecarvaj@hma.upv.es
2
Profesor Catedrático. Universidad Politécnica de Valencia- España
1
1.1 METODOS DE REGIONALIZACION
2
los registros de caudal máximo. Recientemente, ARIDE (2001) aplicó el mismo método
para clasificar 5244 estaciones de caudal, en grupos con un patrón climático común,
utilizando el coeficiente de correlación de Pearson como medida de similaridad.
3
Wiltshire (1987ª) aplicó Análisis discriminante para clasificar una cuenca, conociendo 9
de sus características específicas, en uno de los 10 grupos previamente definidos
estadísticamente. La comprobación realizada en 376 estaciones de caudal dió
clasificaciones muy diferentes. Resultados similares reporta FREND (1989) al aplicar
el método en cuencas de Europa asumiendo 10 grupos ya existentes y 7
características específicas. Esto indica la dificultad para relacionar estadísticos de
caudal y características específicas de las cuencas.
2. METODOLOGIA
2.1 SELECCIÓN DE LA INFORMACIÓN Y ANÁLISIS PREVIO DE CONSISTENCIA
4
calcularon aplicando regresión multivariada con los datos de las estaciones más
cercanas. Luego, se efectuó el análisis exploratorio, analizando gráficos de tiempo, de
masa simple, de doble masa, residual, Q-Q y P-P. Posteriormente, se efectuó el
análisis confirmatorio aplicando pruebas estadísticas de homogeneidad de medias y
varianza: para la media: prueba T con y sin cambio de varianza, prueba F, prueba de
Mann-Whitney, prueba z de Kolmogorov-Smirnov, prueba de Friedman, prueba de
Kendall, prueba del signo, prueba de Wilcoxón de los rangos con signo, prueba de
Kruskal Wallis. prueba de la mediana, para la estimación de tendencias, prueba T
para detección de pruebas lineales. Para detectar cambio de varianza: prueba de de
Levene. Mesa et al (1998).
5
Método de Wiltshire y Berán (1987 b). Aplicaron un método, empleando un
estadístico R que mide la variación en la región del valor G´, definido para
cada estación j con una serie de nj años, con la siguiente expresión:
1 nj
G´ j 2 | Gij 0.5 |
nj i 1
Siendo Gij = F(Xij), es decir el valor de la función de probabilidad asociada al valor Xij,
resultante del ajuste regional de la distribución F(x) a los datos de la estación j. Si la
región es homogénea, los valores de Gij se distribuirán según una distribución
uniforme (0,1) y el valor teórico de G j será de 0.5. Las variaciones de G j dentro de la
región son cuantificadas con el estadístico R que se distribuye según una 2 con n-1
grados de libertad, siendo n el número de estaciones que componen la región. Si el
valor de R excede n21 (1-), se rechaza la hipótesis de homogeneidad. Mediante
simulaciones de Montecarlo, Wiltshire muestra que R se distribuye según una 2
pero la potencia estadística del test es moderada. Otra desventaja es la necesidad de
estimar previamente la ley regional F(x) para calcular G ij y tiene como ventaja la
posibilidad de aplicación a cualquier tipo de regionalización.
Definición: Sea una muestra aleatoria (x1, x2,….xn) procedente de una determinada
población con una función de distribución F(x). A cada uno de dichos valores se le
puede asociar un Gj definido según:
Gj = F(Xi)
G1,G2, …,Gn deben tener, a parte de las desviaciones causadas por los efectos de la
variabilidad muestral, una distribución de frecuencia uniforme (0,1). Si la muestra
corresponde a las series máximas anuales, es necesario dividirlas previamente por el
valor medio de la serie para hacerlas adimensionales. Los puntos G deberán presentar
una distribución uniforme lo que constituye la base del test de homogeneidad. El
parámetro seleccionado por Wiltshire y Berán (1987 b) para cuantificar la aproximación
de los puntos G en una serie j a la distribución uniforme es:
1 nj
G´ j 2 | Gij 0.5 |
nj i 1
Siendo Gij el valor del punto G para el elemento i de la muestra j constituida por n j
elementos. El anterior parámetro debería G´ j debe aproximarse a la media de la
distribución uniforme: 0.5 y por la transformación planteada ser capaz de discriminar
muestras con Cv de la población supuesta al amplificar las diferencias. La
homogeneidad regional es finalmente caracterizada mediante la variabilidad de R de
los distintos Gj´ en las N estaciones, definida según:
(G '
j G ' )2
R J 1
J
6
N
1
G' N n .G J
'
j
n J 1
J
J 1
RISARALDA
N
QUINDIO
CHOCO
TOLIMA
0.8
0.7
0.6
0.5
CAUCA
0.4
0.3
0.2
0.1
0.0
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50
Número de clusters
7
Figura 1. Localización de las estaciones Figura 2. Coeficiente de correlación promedio entre grupos vs número
de clusters.
Análisis Discriminante. Este método permite asignar una estación a un grupo definido a
priori en función de una serie de características del mismo. La base de dicho análisis consiste
en establecer una función discriminante que permita clasificar las variables en los diferentes
grupos. Hay tantas funciones discriminantes como grupos menos uno (k – 1) y para que sean
óptimas han de proporcionar una regla de clasificación que minimice la probabilidad de
cometer errores. Obtenidas las cargas discriminantes, se obtiene una clasificación de las
variables basada en el teorema de Bayes, y la probabilidad que una estación con una
puntuación discriminante determinada pertenezca a uno u otro grupo se estima a través de:
P ( D / Gi ) P (Gi)
P (Gi / D )
P( D / Gi) P(Gi)
Siendo P (Gi) la probabilidad previa de que una estación pertenezca a un grupo determinado
de la muestra, P(D/Gi) la probabilidad condicional de obtener determinada puntuación
discriminante bajo el supuesto que la misma pertenezca a otro grupo, P(G i/D) es la
probabilidad posterior, que se calcula con el teorema de Bayes, permitiendo asignar a cada
sujeto al grupo en el cual su probabilidad posterior es mayor. La discriminación entre los k
grupos se realiza mediante el cálculo de las funciones discriminantes. Existen varios
procedimientos, en este caso se utilizó el de Fisher por ser uno de los más utilizados. Dicho
análisis se realizó a partir de la clasificación obtenida en el cluster jerárquico, y fue aplicando a
las 10 primeras componentes principales. El análisis de Componentes Principales (ACP), es
una técnica multivariada que permite transformar un conjunto de variables correlacionadas en
un nuevo conjunto menor de variables no correlacionadas (ortogonales). El método intenta
identificar la dimensión del campo espacial medido con las estaciones de precipitación.
(Johnson, 2000). En esencia, El ACP extrae p raíces o autovalores, y p autovectores de la
matriz de correlación. El número de raíces corresponde al rango de la matriz, que es igual al
número de vectores linealmente independientes. Los autovalores son numéricamente iguales a
la suma de los cuadrados de los pesos factoriales y representan la relativa proporción de la
varianza que representa cada componente. (Jhonson, 2000), trata la metodología inherente a
este análisis. El ACP no requiere una determinada distribución de probabilidad en los datos,
aunque los mejores resultados se pueden obtener cuando los datos originales son normales
multivariados. A partir de las 10 primeros CP, que representan el (72%) de la variabilidad del
conjunto de datos de precipitación, se efectuó el análisis Discrimiante, a partir de los
resultados obtenidos en el cluster jerárquico.
La figura 2 presenta los coeficientes de correlación promedio por grupos, para diferentes
clusters. Teóricamente, el número de grupos a emplear se define, cuando se presenta un
cambio significativo en la media del coeficiente de correlación intergrupos. En este caso se
tomaron 3 grupos de estaciones de precipitación. ARIDE (2001).
La figura 3 presenta los resultados del test de Dalrymple (1960) para el grupo 3. Se observa
que todas las estaciones pasaron dicho test. Este método tienen la desventaja de tener que
asumir una determinada función de distribución y la posibilidad de encontrar heterogeneidad
en períodos de retorno distintos al utilizado en la prueba. Hosking (1987), plantea que tiene un
escaso poder estadístico, porque en la mayoría de los casos confirma la homogeneidad
regional. Las aplicaciones del test se asocian casi siempre a un método de regionalización del
8
tipo variable índice, pero la escala del método, de comparar el ajuste regional con los límites
de confianza del ajuste local, es utilizable con cualquier método de regionalización.
50
45
40
25
20
15
10
5
0
1 10 100
Método de Wiltshire y Berán (1987b) La tabla 1 resume los resultados del test aplicado a los
grupos, la prueba fue aceptada para los tres grupos con un 95% de confiabilidad, debido a
que los valores de G obtenidos, son menores que la evaluación de la correspondiente prueba
de . Las simulaciones auxiliares de Montecarlo llevadas a cabo por Wiltshire muestran
2
que R efectivamente se distribuye según una 2 , aunque el poder estadístico del test es solo
moderado. Este test fue empleado también por FREND (1989), presentando como
inconveniente la necesidad de estimar previamente la ley regional F(x) para realizar el cálculo
de los valores de Gij y como ventaja la posibilidad de aplicación a cualquier tipo de
regionalización. Para cada una de las regiones se emplearon los parámetros de la función de
distribución EV1.
Tabla 1. Test de Wiltshire y Berán (1987b) para los tres grupos homogéneos seleccionados
9
ESTACION nj Vj nj*Vj uj 1/uj g" gj/uj (gj-g")2/uj R X2
ACTO TULUA 27 0.00015 0.0039 0.0031 324.00 0.48 156.26 0.10
BUGALAGRANDE 27 0.00012 0.0033 0.0031 324.00 0.45 146.22 0.77
CAÑAVERALEJO 27 0.00012 0.0033 0.0031 324.00 0.45 144.97 0.90
EL PALACIO 27 0.00011 0.0031 0.0031 324.00 0.49 157.68 0.06
EL TOPACIO 27 0.00011 0.0029 0.0031 324.00 0.48 156.43 0.10
GALICIA 27 0.00011 0.0030 0.0031 324.00 0.49 157.29 0.07
GARZONERO 27 0.00011 0.0028 0.0031 324.00 0.51 164.36 0.02
LA ARGENTINA 27 0.00013 0.0036 0.0031 324.00 0.48 154.71 0.16
LA BALSA 27 0.00010 0.0027 0.0031 324.00 0.51 165.22 0.03
LA FONDA 27 0.00011 0.0028 0.0031 324.00 0.47 151.73 0.33
LA HERRADURA 27 0.00014 0.0039 0.0031 324.00 0.39 127.65 3.64
LOS CRISTALES 27 0.00009 0.0025 0.0031 324.00 0.50 161.82 0.00
R. CALI 27 0.00010 0.0026 0.0031 324.00 0.52 167.38 0.09
SAN ANTONIO 27 0.00010 0.0027 0.0031 324.00 0.53 172.24 0.32
SAN PABLO 27 0.00013 0.0036 0.0031 324.00 0.46 149.36 0.49
SANTA INÉS 27 0.00009 0.0025 0.0031 324.00 0.51 166.69 0.07
VIJES 27 0.00010 0.0028 0.0031 324.00 0.52 168.93 0.15
VILLACOLOMBIA 27 0.00008 0.0022 0.0031 324.00 0.52 167.76 0.10
VILLAMARÍA 27 0.00012 0.0032 0.0031 324.00 0.47 151.61 0.33
VILLARICA 27 0.00011 0.0029 0.0031 324.00 0.50 161.26 0.00
Las tablas 3 y 4 resumen las funciones canónicas discriminantes. Los valores de 1 = 0.04 y
de la correlación canónica (0.929) obtenidos para las dos primeras funciones discriminantes,
indican que la función obtenida es significativa y su poder discriminante alto.
10
GRUPO MAYOR SEGUNDO GRUPO MAYOR F discriminante
Grupo Grupo
No Estación real pronost. DM DM
P(D>d | G=g) P(G=g | D=d) Grupo P(G=g | D=d) F1 F2
p gl
1 ACTO TULUA 1 1 0.57 2 1.00 1.13 2 0.00 18.47 0.88 -2.31
2 ALCALA 2 2 0.11 2 0.95 4.46 1 0.05 10.56 -0.28 1.13
3 AUSTRIA 2 2 0.72 2 1.00 0.66 1 0.00 26.59 -3.13 0.53
4 BUGALAGRANDE 1 1 0.33 2 1.00 2.24 3 0.00 18.86 2.54 -0.36
5 CAÑAVERALEJO 1 1 0.48 2 1.00 1.45 2 0.00 30.11 2.18 -2.58
6 CORINTO 2 1 0.10 2 0.60 4.55 2 0.40 5.36 -0.22 -0.41
7 EL CASTILLO 2 2 0.13 2 1.00 4.02 1 0.00 41.29 -3.90 1.80
8 EL PALACIO 1 1 0.99 2 1.00 0.02 2 0.00 21.06 1.74 -1.57
9 EL TOPACIO 1 1 0.36 2 1.00 2.06 2 0.00 21.80 0.93 -2.79
10 EL TRAPICHE 2 2 0.64 2 1.00 0.90 1 0.00 17.00 -1.55 1.13
11 GALICIA 1 1 0.40 2 0.98 1.83 2 0.02 9.65 0.51 -0.73
12 GARZONERO 1 1 0.15 2 0.93 3.84 2 0.07 9.03 0.66 0.20
13 GUACARI 2 2 0.14 2 0.75 3.95 1 0.25 6.18 -0.71 -0.60
14 ICA 2 2 0.79 2 1.00 0.47 1 0.00 14.69 -1.91 0.01
15 IRLANDA 2 2 0.52 2 0.99 1.33 1 0.01 10.88 -1.37 -0.08
16 LA ARGEN 1 1 0.28 2 0.97 2.51 2 0.03 9.60 0.02 -1.48
17 LA BALSA 1 1 0.19 2 1.00 3.31 3 0.00 21.10 3.34 -0.99
18 LA DIANA 2 2 0.91 2 1.00 0.18 1 0.00 19.01 -2.43 0.15
19 LA FLORIDA 2 2 1.00 2 1.00 0.01 1 0.00 20.59 -2.40 0.61
20 LA FONDA 1 1 0.85 2 1.00 0.33 2 0.00 21.07 1.97 -1.08
21 LA GITAN 2 2 0.70 2 1.00 0.72 1 0.00 26.20 -2.63 1.35
22 LA HERRA 1 1 0.40 2 1.00 1.83 3 0.00 20.16 2.49 -0.50
23 LA MAGDA 2 2 0.46 2 0.99 1.56 1 0.01 10.81 -1.47 -0.36
24 LA QUINTA 2 2 0.73 2 1.00 0.62 1 0.00 27.29 -2.96 1.02
25 LA SELVA 2 2 0.80 2 1.00 0.46 1 0.00 22.96 -2.88 0.18
26 LA SOLEDAD 2 2 0.24 2 1.00 2.87 1 0.00 36.99 -3.52 1.75
27 LA VICTORIA 3 3 0.08 2 1.00 5.08 1 0.00 64.58 6.33 4.97
28 LOS ALPES 2 2 0.52 2 1.00 1.32 1 0.00 31.16 -3.25 1.23
29 LOS CRISTALES 1 1 0.26 2 1.00 2.69 2 0.00 36.10 2.70 -2.75
30 MANUELITA 2 2 0.88 2 1.00 0.26 1 0.00 22.72 -2.40 1.07
31 MIRAVALLES 3 3 0.14 2 1.00 3.98 1 0.00 16.90 4.48 1.41
32 MONTELORO 2 2 0.92 2 1.00 0.17 1 0.00 21.91 -2.36 0.97
33 PARDO 2 2 0.37 2 1.00 2.00 1 0.00 15.04 -2.22 -0.85
34 PICHICHÍ 2 2 0.68 2 1.00 0.76 1 0.00 18.92 -2.57 -0.28
35 PIENDAMO 2 2 0.52 2 1.00 1.29 1 0.00 23.10 -2.00 1.66
36 PTO FRAZ 2 2 0.52 2 1.00 1.30 1 0.00 22.04 -2.95 -0.38
37 PTO MOLI 3 3 0.58 2 1.00 1.08 1 0.00 44.59 4.63 4.43
38 R. CALI 1 1 0.31 2 1.00 2.32 2 0.00 33.91 2.44 -2.80
39 SABANAZO 3 3 0.33 2 1.00 2.23 1 0.00 53.24 5.27 4.78
40 SAN ANTO 1 1 1.00 2 1.00 0.01 2 0.00 19.20 1.57 -1.46
41 SAN EMIG 2 2 0.64 2 1.00 0.90 1 0.00 23.30 -3.01 -0.09
42 SAN PABL 1 1 0.94 2 1.00 0.13 2 0.00 22.99 1.90 -1.72
43 SANTA IN 1 1 0.11 2 0.99 4.40 2 0.01 14.44 -0.20 -2.59
44 SILVIA 2 2 0.18 2 1.00 3.41 1 0.00 38.43 -3.53 1.96
45 VIJES 1 1 0.91 2 1.00 0.19 2 0.00 16.85 1.17 -1.60
46 VILLACOL 1 1 0.83 2 1.00 0.37 2 0.00 17.06 1.06 -1.81
47 VILLAMAR 1 1 0.61 2 1.00 0.98 3 0.00 26.74 2.57 -1.31
48 VILLARIC 1 1 0.45 2 1.00 1.61 2 0.00 15.76 1.57 -0.26
49 ZARAGOSA 3 3 0.02 2 0.79 7.40 1 0.21 10.07 2.91 1.37
4. CONCLUSIONES Y RECOMENDACIONES
11
La homogeneización de las series para el tratamiento conjunto de los datos, permite, hacer
análisis más robustos, y reducir la incertidumbre existente respecto a la representatividad y
consistencia de una muestra local. Así mismo, una excesiva heterogeneidad de los datos en la
región puede conducir a valores erróneos en la estimación de parámetros estadísticos. Aunque
no existe un procedimiento que asegure la correcta definición de la región para el análisis de
precipitación o caudal, lo recomendable es emplear el método geográfico y confirmarlo con un
test de homogeneidad, que verifique la región.
El método geográfico puede considerarse el más adecuado para definir las regiones, cuya
homogeneidad debe ser contrastada con un test estadístico. La selección del método de
comprobación depende del grado de homogeneidad que se quiera asumir. A nivel de
conclusión, el método de Dalrymple es de poca potencia, al no considerar la homogeneidad de
cuantiles diferentes a un Tr = 10. El test de Wiltshire, y en general los test basados en la
prueba estadística de 2 tienen una potencia moderada.
Vale la pena resaltar que si las series presentan inconsistencias, al hacer la clasificación
estadística, se obtienen heterogeneidades e inconsistencias geográficas. Estas situaciones
conducen a que una prueba de homogeneidad sea rechazada, por lo cual se recomienda
efectuar un tratamiento previo exhaustivo de la información antes de llevar a cabo el análisis
de regionalización. Puede ocurrir también que la heterogeneidad sea debida a eventos
extremos muy localizados, lo cual conduce a asumir (al utilizar dichos datos) que estos
sucesos se producen en toda la región.
REFERENCIAS BIBLIOGRAFICAS
Acreman M.C. y Sincalir C. D., 1986: “Classification of Drainage basins according to their
physical characteristics ; An application for flood frecuency analysis in Scotland” J. Hydrol., 84
365-380.
Arias A,, Y. y Soto, C., 2000 “Regionalización de Caudales Medios de las Corrientes Afluentes
Superficiales al Río Cauca entre Salvajina y Cartago”, Trabajo de Grado, Universidad del Valle
- Universidad Nacional de Colombia, Santiago de Cali, Palmira – Colombia.
ARIDE, 2001. Assesment of the Regional Impact of Droughts in Europe. Final Report. Institute
of Freiburg. Freiburg.Germany.
Benson M.A., 1962: “Evaluation of methods for evaluating the ocurrence of floods “ Water
Resour. Res., 4 (5), 891-895.
Dalrymple, T., 1960: Flood Frecuency analyses” Water Supply Pap. 1543-A, U.S. Geological
Survey, Reston, Va.
De Coursey D. G., 1973: “ Objetive regionalizaton of peak flows rates”. Floods and Droughts,
395-405, Ed. E.F. Koelzer, V.A. Koelzer y K. Mahmood. Proc of the second International
Symposium in Hydrology, Sept. 1972, fot Collins, Colorado USA.
12
Erazo, A. M. “Estudio de Regionalización de Caudales Máximos para Diseño" Corporación
Autónoma Regional del Valle del Cauca. 1998.
FREND. 1989: Flow Regimes from experimental and network data, Vol, 1 Hydrologycal
studies”. Ed. Institute of Hydrology, Wallinford. 344 pp.
Instituto del Agua., 1992 “Estudio hidrológico de ramblas Costeras de la región de Murcia”.
Univ Murcia.
Johnson, Dallas. 2000. Applied multivariate methods for data analysis. International Thompson
Plublishing.
Lettenmaier D.P. y Potter K.W., 1985: “Testing flood frecuency estimation methods using a
regional flood generating modelo”. Water Resour. Res,. 21(12), 1903 -1914
MEJIA M., PERRY. 1987. Estudio de aguas en el área geográfica del Valle del Cauca bajo la
jurisdicción de la CVC. Colombia.
Mosley M.P., 1 981:”Delimitation of New Zealand into hydrologic regions”. J. Hydrol., 49, 173-
192.
NERC, 1975: “Flood studies report” Nat Environ. Res. Council, London, vols. 1 – 5, 1100 pp.
Wiltshire S., 1986: Identification of homogeneous regions for flood frecuency analysis” J.
Hydrol., 84, 287 – 302.
Wiltshire S. Y Beran M., 1987b: “A significance test for homogeneity of flood frecuency
regions”. Regional Flood Frecuency analysis, 147-158, Ed V.P. Singh. Reidel Publising
Company.
13