Está en la página 1de 32

5.

Estadística hidrológica

Los procesos hidrológicos evolucionan en el espacio y en el tiempo en una forma


que es parcialmente predecible y parcialmente aleatoria. Un proceso de este tipo se
denomina proceso estocástico. En algunos casos la variabilidad aleatoria del proceso es tan
grande comparada con su variabilidad determinística, que se justifica que el hidrólogo trate
el proceso como puramente aleatorio.

Cuando no existe relación entre observaciones, se hace necesario entonces un


análisis de tipo estocástico. Este análisis es adecuado para eventos hidrológicos extremos,
como crecientes o sequías, y para información promediada en intervalos de tiempo grandes,
como es el caso de la precipitación anual. El presente capítulo describe la información
hidrológica de procesos aleatorios utilizando funciones y parámetros estadísticos. Los
métodos estadisticos están basados en principios matemáticos que describen la variación
aleatoria de un conjunto de observaciones determinadas, y estos centran su atención en las
observaciones más que en los procesos físicos que las producen. Por tanto, la estadística es
una ciencia de descripción, no de causalidad.

5.1. Conceptos fundamentales de probabilidad y estadística


5.1.1.Probabilidad y sus axiomas
Las leyes naturales más simples son aquellas que expresan las condiciones bajo las
cuales un evento de interés ocurre o no ocurre con certeza. Estas condiciones se expresan
como:

a) Si se presenta un conjunto de condiciones S, entonces el evento A, seguramente,


ocurre; o bien
b) Si se presenta un conjunto de condiciones S, entonces el evento A no puede
ocurrir.

En el primer caso, A es un evento seguro con respecto a las condiciones S y en el


segundo es un evento imposible.

87
Hidrología de superficie

Cuando un evento A, en presencia de un conjunto de condiciones S, a veces ocurre


y a veces no, se llama aleatorio con respecto al conjunto S. Es natural suponer que,
cuando esto no sucede, no se han tomado en cuenta en conjunto S todas las condiciones
necesarias para la ocurrencia o no ocurrencia del evento, y no, como a veces se hace, que
no exista una ley física que conduzca a esta ocurrencia o no ocurrencia. Esas condiciones
o leyes que no se incluyen en el análisis del evento A se suplen por una ley de
probabilidades, la cual indica con qué frecuencia se presenta el evento dadas las
condiciones S.

Sea, por ejemplo, el volumen mensual del escurrimiento en una sección dada de un
río. Al tomar una muestra de los escurrimientos (esto es, al aforar la corriente en un
número finito de meses), se observa que el volumen mensual de escurrimiento es a veces
mayor de 300 000 m3, pero a veces es menor. Si se quisiera aprovechar el agua del río, por
ejemplo, para riego, pero sin hacer una presa, el dato de que el volumen es a veces mayor
de 300 000 m3, pero a veces menor resulta, obviamente, demasiado vago. Por otra parte,
la determinación precisa de los volúmenes mensuales de escurrimiento que se presentarán
durante los siguientes L años (siendo L la vida útil de la obra de captación) involucraría el
análisis de un conjunto de condiciones que van desde las meteorológicas hasta los
cambios que se presentarán en la cuenca de aportación demasiado complicado o para el
cual no se dispone de herramientas adecuadas.

Podría entonces buscarse el volumen mínimo y máximo observado durante los n


meses en que se han hecho las observaciones y proporcionar al proyectista del
aprovechamiento un dato de tipo:

25000 ≤ V ≤ 1000000 (5.1)

donde V es el volumen de escurrimiento mensual, en m3.

88
Estadística hidrológica

Aunque (5.1) es de mayor utilidad que el dato de que el volumen mensual a veces
es mayor de 300 000 m3, pero a veces menor, todavía es de poca utilidad para el
proyectista. Él recibiría una información mucho más valiosa si se le dice que en
aproximadamente el 70% de los meses el volumen es mayor de 300 000 m3; una
evaluación mucho más completa de los escurrimientos del río sería mostrar, para
cualquier volumen V, el porcentaje v (V) de los meses en que han escurrido no menos de V
m3 en el periodo de datos.

Si el número de meses de observación con cuyos datos se ha formado la figura 5.1


es grande (por ejemplo, 1 000), es razonable suponer que durante la vida útil de la obra
(que podría ser de 500 meses) el escurrimiento en el río tendrá un comportamiento similar
al mostrado en la figura 5.1, aunque, a menos que la muestra sea infinita, nunca será
exactamente igual. Esto significa que, por grande que sea la muestra, siempre habrá
alguna probabilidad (que disminuye conforme aumenta el tamaño de la muestra) de que el
volumen en un mes cualquiera sea mayor de 10 x 105 m3 o menor de 0.25 x 105 m3.
Entonces, la figura 5.1 es sólo una aproximación a la ley de probabilidades que suple las
condiciones S, por las cuales el volumen mensual de escurrimiento toma un valor dado v;
dicha aproximación estará más cercana a esta ley conforme el tamaño de la muestra es
mayor.

Figura 5.1.

Considérese ahora un grupo grande de series de pruebas (aforos del río) Sea n, el
número de pruebas en la r-ésima serie y µ, el número de pruebas en esta serie en que
ocurre un cierto evento A.

89
Hidrología de superficie

Se define como frecuencia vr, del evento A al cociente:

µr
vr =
nr (5.2)

Si vr es la misma para cualquier r, se dice que el evento A ocurre con una


probabilidad p, definida como:

p = P ( A) ≡ v r (5.3)

Obviamente, 0 ≤ µr ≤ nr, de donde se desprende que 0 ≤ vr ≤ 1. Extendiendo esta


idea de frecuencia relativa vr a probabilidad, se tiene el primer axioma de la teoría de la
probabilidad;

0 ≤ P ( A) ≤ 1 (5.4)

Por otra parte, cuando, para un evento E, ocurre que µr = nr, se dice que el evento
E es seguro y entonces:

P( E ) = 1 (5.5)

Para que un evento sea seguro debe incluir todos los posibles casos o resultados
del experimento (espacio muestral). Así, en el caso del escurrimiento del río, el evento
seguro es:

E :0 ≤V ≤ ∞ (5.6)

La ecuación 5.5 constituye el segundo axioma de la teoría de la probabilidad. Una


consecuencia de este axioma es que la probabilidad de que no se presente ninguno de los
posibles eventos del espacio muestral es nula. Así, por ejemplo

90
Estadística hidrológica

P (V < 0) = 0 (5.7)

Se dice que dos eventos son mutuamente excluyentes cuando no pueden ocurrir
simultáneamente. Por ejemplo, el evento

A : V > 500,000m 3 (5.8)


y el evento

B : V > 10,000m 3 (5.9)

son mutuamente excluyentes. Si la frecuencia del evento A es v1 y la del evento B es v2,


entonces la frecuencia de la unión de los dos es v = v1 + v2; por lo tanto, la probabilidad
de C = A ∪ B es:

P (C ) = P( A ∪ B) = P( A) + P( B) (5.10)

que es el tercer axioma de la teoría de la probabilidad.

La ley de probabilidades que describe el comportamiento estadístico de una variable


aleatoria (que en el caso mencionado anteriormente es el volumen de escurrimiento
mensual) se puede representar de varias maneras, entre las que cabe mencionar la función
masa de probabilidad discreta, la función de distribución de probabilidad acumulada, la
función de densidad de probabilidad y la función de distribución de probabilidad. A
continuación se hará un breve recordatorio de estas funciones y sus propiedades.

91
Hidrología de superficie

5.1.2. Funciones de probabilidad


A continuación y hasta el final del capítulo, se usarán, como es común, letras
mayúsculas para denotar variables aleatorias y minúsculas para denotar los valores que
toman dichas variables. También, como es costumbre, se denotará con mayúsculas a las
funciones de distribución o acumuladas y con minúsculas a las funciones masa o de
densidad.

5.1.2.1. Funciones discretas de probabilidad


Cuando el número de valores x que puede tomar una variable aleatoria X es finito,
se dice que la variable aleatoria X es discreta. Por ejemplo, si en el experimento “tiro de
dos dados” se define la variable aleatoria X como:

X = D1 + D2 (5.11)

donde D1 + D2 son los puntos obtenidos del primero y segundo dado respectivamente, el
espacio muestral1 será mostrado en la tabla 5.1.

Tabla 5.1

1+1 = 2 2+1 = 3 3+1 = 4 4+1 = 5 5+1 = 6 6+1 = 7


1+2 = 3 2+2 = 4 3+2 = 5 4+2 = 6 5+2 = 7 6+2 = 8
1+3 = 4 2+3 = 5 3+3 = 6 4+3 = 7 5+3 = 8 6+3 = 9
1+4 = 5 2+4 = 6 3+4 = 7 4+4 = 8 5+4 = 9 6+4 = 10
1+5 = 6 2+5 = 7 3+5 = 8 4+5 = 9 5+5 = 10 6+5 = 11
1+6 = 7 2+6 = 8 3+6 = 9 4+6 = 10 5+6 = 11 6+6 = 12

En este caso, el número total de resultados posibles del experimento es 36 y el


número n de valores que puede tomar la variable aleatoria X es 11 (x = 2, 3, ..., 12). La
probabilidad asociada a cada uno de estos n posibles valores de X se muestra en la tabla
5.2 y en forma gráfica en la figura 5.2. Una función como la mostrada en esta figura se

1
Se define como espacio muestral al conjunto de todos los posibles resultados de un experimento.
92
Estadística hidrológica

denomina “función masa de probabilidad discreta” si se refiere a la población o


“histograma de frecuencias relativas” si se refiere a una muestra y describe el
comportamiento de la variable aleatoria X. Este comportamiento puede también ser
descrito en términos de probabilidades acumuladas mediante la función:

G ( x) = P ( X ≤ x) (5.12)

Tabla 5.2

Número de resultados Probabilidad


x = valor de X
favorables g(x) = P (X=x)
2 1 1/36
3 2 2/36 = 1/18
4 3 3/36 = 1/12
5 4 4/36 = 1/9
6 5 5/36
7 6 6/36 = 1/6
8 5 5/36
9 4 4/36 = 1/9
10 3 3/36 = 1/12
11 2 2/36 = 1/18
12 1 1/36

Figura 5.2.

93
Hidrología de superficie

que se lee como la “probabilidad de que la variable aleatoria X tome un valor menor o
igual que x”. En este caso, dado que la variable aleatoria X es discreta, se escribe:

G ( x) = ∑ P( X = x )
∀xi ≤ x
i
(5.13)

La función G(x) se muestra en la figura 5.3.

Figura 5.3.

94
Estadística hidrológica

5.1.2.2, Funciones continuas de probabilidad


Cuando el número n de valores que puede tomar una variable aleatoria X es
infinito, como es el caso, por ejemplo, de los volúmenes de escurrimiento mensual de un
río, se dice que dicha variable aleatoria es continua.

Es posible deducir la forma equivalente a la función de la figura 5.2 para variables


aleatorias continuas al imaginar dados con un número muy grande de caras. En el límite,
cuando el número de caras tiende a infinito, la función tendría un aspecto como el que se
muestra en la figura 5.4.

Figura 5.4.

Una función como ésta se llama función de densidad de probabilidad.

Nótese que, al contrario de lo que sucede con la función masa de la figura 5.2,
cuando una variable aleatoria es continua, la probabilidad de que ésta tome un valor
exacto es siempre nula:

P( X = x) = 0 (5.14)

y sólo es posible hablar de probabilidades diferentes de cero para intervalos finitos:

P (a ≤ X ≤ b) ≠ 0, a < b, a > x0 , b < x1 (5.15)

95
Hidrología de superficie

donde (x0, x1) es el intervalo de definición de la variable aleatoria X. Mediante un


argumento similar, la función que equivale a la figura 5.3 para la variable aleatoria
continua del ejemplo tiene una forma como la que se muestra en la figura 5.5.

Figura 5.5.

En este caso, como en la ecuación 5.12:

F ( x) = P( X ≤ x) (5.16)

y en términos de la función de densidad de probabilidad f(x):

x
F ( x) = ∫ f ( x)dx
−∞ (5.17)

Obviamente, debe cumplirse también que:

dF ( x)
f ( x) =
dx (5.18)

Nótese que de acuerdo con los dos axiomas de la probabilidad:

f ( x) ≥ 0 (5.19a)

96
Estadística hidrológica



−∞
f ( x)dx = 1
(5.19b)

y que, según la ecuación 5.17

b a
P ( a ≤ X ≤ b) = P ( X ≤ b) − P ( X ≤ a ) = ∫− ∞ f ( x)dx − ∫− ∞ f ( x)dx = F (b) − F (a)
(5.20)

También, de acuerdo con el primer axioma de la probabilidad,

0 ≤ F ( x) ≤ 1 (5.21)

y además:

F (b) > F (a ), si b > a (5.21a)

5.1.3. Periodo de retorno


Cada espacio muestral tiene su propia función de distribución o de densidad de
probabilidad, que normalmente no se conoce a priori. Cuando de ese espacio se extrae un
grupo de datos (muestra) al azar, es razonable esperar que su función de distribución de
probabilidad sea similar a la del espacio completo, en particular si la muestra es grande.
Además, lo más razonable que se puede suponer en cuanto a la frecuencia de cada dato
del grupo es que ésta sea, dentro del espacio muestral, igual a la observada.

Considérese, por ejemplo, el conjunto de diez gastos máximos anuales de la tabla


5.3. Si esta muestra fuera todo el espacio, la función de distribución de probabilidades
sería la mostrada en la figura 5.6. De esta función se observa, por ejemplo, que la
probabilidad de que el gasto máximo anual sea menor o igual a 1 500 m3/s se encuentra
dentro de los límites.

97
Hidrología de superficie

0 ≤ P( X ≤ 1500m 3 / s ) ≤ 0.1 (5.22)

Tabla 5.3

Año 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981
Qmáx,
m3/s 2000 5000 4500 3800 2900 3100 1500 2200 3900 4700

Figura 5.6.

y la probabilidad de que dicho gasto sea menor o igual a 5 000 m3/s se encuentra dentro
de los límites

0.9 ≤ P( X ≤ 5000m3 / s ) ≤ 1.0 (5.23)

Los límites de las ecuaciones 5.22 y 5.23 se pueden expresar en función de la


posición de la variable aleatoria X(=Qmáx) en una tabla de valores de la misma, ordenados
de mayor a menor (véase tabla 5.4). Así, si m es el número de orden y n el número total de
datos, y si se escoge el límite superior en las ecuaciones 5.22 y 5.23, se tiene para un valor
x con número de orden m:

1− m
P ( X ≤ x) = 1 +
n (5.24)
98
Estadística hidrológica

y si se toma el límite inferior resulta:

m
P( X ≤ x) = 1 −
n (5.25)

Tabla 5.4

m 1 2 3 4 5 6 7 8 9 10
X=
Qmáx
3
(m /s) 5000 4700 4500 3900 3800 3100 2900 2200 2000 1500

Se observa que, en el caso de la ecuación 5.24, la probabilidad de que el gasto sea


mayor de 5 000 m3/s es nula, y en el segundo caso, la probabilidad de que el gasto
máximo anual sea menor de 1 500 m3/s es también nula. Sin embargo, resulta absurdo
decidir que jamás se presentará un gasto mayor de 5 000 m3/s o uno menor de 1 500 m3/s
sólo porque en 10 años de registro no se han presentado gastos de estas magnitudes. En
vista de que este gasto es una variable aleatoria continua, cuyo dominio de definición es:

0≤ x≤∞ (5.26)

siempre habrá una probabilidad no nula de que se presente un gasto menor o igual que un
valor cualquiera en este rango, no importa qué tan pequeño o grande sea dicho valor.

De aquí la necesidad de usar una fórmula que asigne una probabilidad no nula a
cualquier evento. Esto puede hacerse con una fórmula del tipo:

2m − 1
P ( X ≤ x) = 1 −
2n (5.27)

que sitúa la probabilidad exactamente en el centro del intervalo.

99
Hidrología de superficie

Otra manera de hacer lo anterior es suponiendo que la frecuencia observada de un


evento es la misma que la población de frecuencias de ese evento, lo que conduce a la
fórmula:

m
P ( X ≤ x) = 1 −
n +1 (5.28)

La ecuación 5.28 es la más usada en hidrología.

Se le llama periodo de retorno al intervalo de tiempo dentro del cual un suceso de


magnitud conocida puede ser igualado o excedido por lo menos una vez.

Si un fenómeno hidrológico de magnitud mayor o igual a x ocurre una vez en T


años, entonces la probabilidad de ocurrencia de este fenómeno es igual a

1
P= (5.29)
T

donde T es el periodo de retorno

1
T= (5.30)
P

El periodo de retorno del m-ésimo evento de los n registrados es entonces, de


acuerdo con las ecuaciones 5.28 y 5.30,

n +1
T=
m (5.31)

Así, el máximo evento registrado en un conjunto de 10 tiene un periodo de retorno


de 11 años y el mínimo lo tiene 1.1 años.

100
Estadística hidrológica

En hidrología, normalmente se prefiere trabajar con periodos de retorno en lugar de


probabilidades, pues es un concepto que resulta más claro ya que tiene las mismas unidades
(tiempo) que la vida útil de las obras y puede compararse con ésta.

Con frecuencia es importante estimar la probabilidad de que un evento, con un


determinado periodo de retorno, sea igualado o excedido en un cierto intervalo de tiempo.
Un ejemplo sería el estimar la probabilidad de que, durante la vida útil de 50 años para una
presa, se pudiera presentar una avenida de 100 años de periodo de retorno.

A esta probabilidad se le conoce como Riesgo (Riesgo de falla), donde uno o más
eventos de periodo de retorno Tr ocurran durante la vida útil de una obra.

Sea P la probabilidad de excedencia del evento igual a 1/Tr, es decir,, la


probabilidad de ocurrencia del evento en cualquier año. La probabilidad de NO
OCURRENCIA del evento en cualquier año será entonces (1-P). Considerando que eventos
como las avenidas y las tormentas son estadísticamente independientes, la probabilidad de
que el evento no suceda en dos años consecutivos será (1-P)2. extendiendo este
razonamiento a la vida útil N del proyecto, se tendrá (1-P)N. Finalmente, la probabilidad de
que el evento si ocurra durante la vida útil será:

R = 1 − (1 − P ) = 1 − (1 −
N 1 N
) (5.32)
Tr

entonces

1
Tr = (5.33)
1 − (1 − R)1 / N

La relación entre el periodo de retorno y el riesgo de falla se muestran en la figura


siguiente.

101
Hidrología de superficie

Figura 5.7. Relación entre el periodo de retorno, la vida útil de la obra y el riesgo(A.6)

5.2. Parámetros estadísticos


El objetivo de la estadística es extraer la información esencial de un conjunto de
datos, reduciendo un conjunto grande de números a un conjunto pequeño de números. Las
estadísticas son números calculados de una muestra, los cuales resumen sus
características más importantes. Los parámetros estadísticos son características de una
población.

Un parámetro estadístico es el valor esperado E de alguna función de una variable


aleatoria. Un parámetro simple es la media µ, el valor esperado de la variable aleatoria.
Para una variable aleatoria X, la media es E(X), y se calcula como el producto de x y la
correspondiente densidad de probabilidad f(x), integrando sobre el rango factible de la
variable aleatoria

102
Estadística hidrológica


E ( x) − µ = ∫− ∞ xf ( x)dx (5.34)

E(X) es el primer momento alrededor del origen de la variable aleatoria, una


medida del punto medio o “tendencia central” de la distribución.

La estimación por la muestra de la media es el promedio x de la información de la


muestra

1 n
x= ∑ xi
n i =1 (5.35)

La tabla 5.5 resume las ecuaciones para algunos parámetros de población y de sus
estadísticas de muestra.

La variabilidad de la información se mide por medio de la varianza σ2 , la cual es


el segundo momento alrededor de la media

[ ] ∞
E ( x − µ ) 2 = σ 2 = ∫ ( x − µ ) 2 f ( x)dx
−∞ (5.36)

El valor estimado de la muestra de la varianza está dado por

1 n
s2 = ∑
n − 1 i =1
( xi − x) 2
(5.37)

103
Hidrología de superficie

Tabla 5.5. Parámetros de población y estadísticas de muestra

Parámetro de la población Estadística de la muestra


1. Punto medio
Media aritmética

µ = E ( X ) = ∫ xf ( x)dx 1 n
−∞
x = ∑ xi
n i =1
Mediana
x tal que F(x) = 0.5 Valor de la información en el 50º. percentil
Media geométrica
antilog [E(log x)] ⎛ n ⎞
1/ n

⎜⎜ ∏ xi ⎟⎟
⎝ i =1 ⎠
2. Variabilidad
Varianza
σ 2 = E [( x − µ ) 2 ] 1 n
s2 = ∑ ( xi − x) 2
n − 1 i =1
Desviación estándar

{
σ = E [x − µ ]2 } 1/ 2
⎡ 1 n
s=⎢ ∑

( xi − x) 2 ⎥
1/ 2

⎣ n − 1 i =1 ⎦
Coeficiente de variación
σ s
CV = CV =
µ x
3. Simetría
Coeficiente de asimetría (oblicuidad)

E [( x − µ )]
3 n

γ = n∑ ( xi − x) 3
σ3 Cs = i =1

(n − 1)(n − 2) s 3

104
Estadística hidrológica

En la cual el divisor es n – 1 en lugar de n para asegurar que la estadística de la


muestra no sea sesgada, es decir, que no tenga una tendencia, en promedio, a ser mayor o
menor que el valor verdadero. La varianza tiene dimensiones de [X]2. La desviación
estándar (σ) es una medida de la variabilidad que tiene las mismas dimensiones de X. La
cantidad de σ es la raíz cuadrada de la varianza y se estima por s. El significado de la
desviación estándar se ilustra en la figura 5.8a; a medida que la desviación estándar
aumenta, aumenta la dispersión de la información. El coeficiente de variación CV = σ /µ ,

estimado por s x , es una medida adimensional de la variabilidad.

a) Desviación estándar b) Coeficiente de asimetría

Figura 5.8. Efectos en la función de densidad de probabilidad causados por cambios en la


desviación estándar y el coeficiente de asimetría

La simetría de una distribución alrededor de la media se mide utilizando la


asimetría (oblicuidad) la cual es el tercer momento alrededor de la media

[ ] ∞
E ( x − µ ) 3 = ∫ ( x − µ ) 3 f ( x)dx
−∞ (5.38)

La asimetría normalmente se construye en forma adimensional dividiendo la


ecuación (5.38) por σ3 para dar el coeficiente de asimetría γ

γ =
1
σ3
[
E (x − µ)3 ]
(5.39)

105
Hidrología de superficie

Un estimativo de la muestra de γ está dado por

n
n∑ ( xi − x) 3
Cs = i =1

(n − 1)(n − 2) s 3 (5.40)

o bien

⎛ n ⎞ ⎛ n ⎞⎛ n ⎞ ⎛ n ⎞
n 2 ⎜ ∑ x 3 ⎟ − 3n ⎜ ∑ x ⎟⎜ ∑ x 2 ⎟ + 2⎜ ∑ x 3 ⎟
Cs = ⎝ i =1 ⎠ ⎝ i =1 ⎠ ⎝ i =1 ⎠ ⎝ i =1 ⎠
n ( n − 1)( n − 2 ) x 3 (5.41)

Tal como se muestra en la figura 5.8b, para la asimetría positiva (γ > 0), la
información está desviada hacia la izquierda. Si los datos tienen una asimetría pronunciada,
un pequeño número de valores extremos causa un efecto significativo en la media
aritmética calculada mediante la ecuación (5.35), luego son apropiadas medidas alternativas
de la tendencia central, tales como la mediana o la media geométrica listadas en la tabla
5.5.

5.3. Funciones de distribución de probabilidad empleadas en hidrología


Una vez que se asigna un periodo de retorno al gasto de diseño de la obra en
cuestión, generalmente es necesario, para conocer dicho gasto de diseño, hacer
extrapolaciones a partir de los gastos máximos anuales registrados, pues rara vez este
periodo es menor al periodo de datos.

Por ejemplo, puede ser necesario determinar un gasto de diseño como periodo de
retorno de 1 000 años a partir de 25 años de registro. Si los gastos máximos anuales
registrados se dibujan contra sus respectivos periodos de retorno, generalmente se observa
alguna tendencia más o menos definida. El problema radica en cómo extender esa
tendencia hasta el periodo de retorno deseado. Una posibilidad es extrapolar los datos a
106
Estadística hidrológica

ojo, es decir, gráficamente. Aunque este método puede dar muy buenos resultados si se
aplica por una persona con experiencia, tiene la desventaja de la subjetividad; esto es, si
veinte ingenieros diferentes lo aplican, es probable que el resultado sean veinte gráficas
diferentes.

Para eliminar esta subjetividad, se debe buscar entre las distintas funciones de
distribución de probabilidad teóricas la que se ajuste mejor a los datos medidos, y usar
esta función para la extrapolación.

En la estadística existen decenas de funciones de distribución de probabilidad


teóricas; de hecho, existen tantas como se quiera, y obviamente no es posible probarlas
todas para un problema particular. Por lo tanto, es necesario escoger, de esas funciones,
las que se adapten mejor al problema bajo análisis.

Entre las funciones de distribución de probabilidad usadas en hidrología se


estudiarán las siguientes:

a) Normal.
b) Lognormal.
c) Pearson III.
d) Gumbel.

Las funciones anteriores, aún cuando son las más comúnmente usadas en la
hidrología aplicada, no son todas, pues el enfoque de este texto no es exhaustivo. No
obstante, se presentan las bases necesarias para estudiar cualquier función de distribución
de probabilidad.

Las funciones normal y lognormal son generalmente apropiadas para variables


aleatorias que cubren todo el rango de valores de los resultados posibles del experimento
bajo análisis, como por ejemplo los volúmenes de escurrimiento mensual en un río. Las
funciones Gumbel se desarrollaron para el análisis de los valores extremos de dichos

107
Hidrología de superficie

resultados, como los gastos máximos o mínimos anuales. La función Pearson III ocupa un
lugar intermedio.

Las funciones de distribución de probabilidad se estudiarán sin mucha justificación


teórica, tanto en lo que respecta a su desarrollo como a la evaluación de sus parámetros,
considerando que dicha justificación teórica se sale del enfoque de este texto. En general,
los estimadores de los parámetros de las distribuciones que se indican en el texto son los
que pueden obtenerse por el método de momentos; se incluyeron sólo éstos por ser los
más sencillos, pero no debe olvidarse que existen otros métodos (como los de máxima
verosimilitud y mínimos cuadrados). Además, el uso de las funciones puede tener ciertas
limitaciones que no se mencionan necesariamente a continuación.

5.3.1. Distribución normal


La distribución normal surge del teorema del límite central, el cual establece que
si una secuencia de variables aleatorias Xi son independientes y están idénticamente
distribuidas con media µ y varianza σ2, entonces la distribución de la suma de n de estas
variables aleatorias
n
Y = ∑ Xi (5.42)
i =1

tiende hacia la distribución normal con media nµ y varianza nσ2 a medida que n aumenta.
El punto importante es que esto es cierto sin importar cuál es la función de distribución de
probabilidad de X. Así, por ejemplo, la distribución de probabilidad de la media de la
muestra

1 n
x= ∑ xi (5.43)
n i =1

puede aproximarse como una distribución normal con media µ y varianza

108
Estadística hidrológica

σ
2
⎛1⎞
2
⎜ ⎟ nσ =
2
(5.44)
⎝n⎠ n

sin importar cuál es la distribución de x. Las variables hidrológicas, como la precipitación


anual, calculadas como la suma de los efectos de muchos eventos independientes tienden
a seguir la distribución normal.

Las principales limitaciones de la distribución normal en la descripción de


variables hidrológicas son, por un lado, que ésta varía a lo largo de un rango continuo [-
∞,∞], mientras que la mayor parte de las variables hidrológicas son no negativas, y por
otro lado, que es simétrica alrededor de la media, mientras que la información hidrológica
tiende a ser asimétrica.

5.3.2. Distribución lognormal


Si la variable aleatoria

Y = log X (5.45)

está normalmente distribuida, entonces se dice que X está distribuida en forma lognormal.
Chow llegó a la conclusión de que esta distribución se aplica a variables hidrológicas
formadas como productos de otras variables debido a que si

X = X 1 , X 2 , X 3 ..., X n (5.46)

entonces

n n
Y = log X = ∑ log X i = ∑ Yi (5.47)
i =1 i =1

lo cual tiende a la distribución normal para valores grandes de n siempre y cuando los Xi
sean independientes y estén idénticamente distribuidos. Se ha encontrado que la

109
Hidrología de superficie

distribución lognormal describe la distribución de la conductividad hidráulica en un medio


poroso, la distribución de tamaño de gotas de lluvia en una tormenta y otras variables
hidrológicas. La distribución lognormal tiene las ventajas sobre la distribución normal de
que está limitada (X>0) y de que la transformación log tiende a reducir la asimetría
positiva comúnmente encontrada en la información hidrológica, debido a que al tomar
logaritmos se reducen en una proporción mayor los números grandes que los números
pequeños. Algunas limitaciones de la distribución lognormal son, por un lado, que tiene
solamente dos parámetros y, por otro lado, que requiere que los logaritmos de los datos
sean simétricos alrededor de su media.

5.3.3. Distribución Pearson III


También es conocida como distribución gamma de tres parámetros e introduce el
límite inferior ∈, de tal manera que por el método de los momentos, los tres momentos de
la muestra (media, desviación estándar y coeficiente de asimetría) pueden transformarse
en los tres parámetros λ, β y ∈ de la distribución de probabilidad. Esta es una distribución
muy flexible, que puede asumir diferentes formas a medida que λ, β y ∈ varían.

El sistema de distribuciones Pearson incluye siete tipos, todos soluciones para f(x)
en una ecuación de la forma

d [ f ( x)] f ( x)( x − d )
= (5.48)
dx C0 + C1 x + C2 x 2

donde d es la moda de la distribución (el valor de x para el cual f(x) es un máximo) y C0,
C1 y C2 son coeficientes que deben determinarse. Cuando C2 = 0, la solución de la
ecuación anterior es una distribución Pearson tipo III. Para C1 = C2 = 0, la solución de la
ecuación es una distribución normal. Por tanto, la distribución normal es un caso especial
de la distribución Pearson tipo III para describir una variable no asimétrica. La
distribución Pearson tipo III se aplicó por primera vez en la hidrología para describir la
distribución de probabilidad de picos de crecientes máximas anuales. Cuando la
información es muy asimétrica positivamente, se utiliza una transformación log para

110
Estadística hidrológica

reducir la asimetría.

5.3.4. Distribución Gumbel


Los valores extremos son valores mínimos o máximos seleccionados de conjuntos
de datos. Por ejemplo, el gasto máximo anual en un lugar dado es el mayor registrado
durante un año y los valores de gasto máximo anual para cada año de registro histórico
conforman un conjunto de valores extremos que pueden analizarse estadísticamente.
Fisher y Tippet han demostrado que las distribuciones de valores extremos seleccionados
de conjuntos de muestras de cualquier distribución de probabilidad convergen en una de
las tres formas de distribuciones de valor extremo. Las propiedades de estas tres formas
limitantes fueron desarrolladas por Gumbel para la distribución de valor extremo tipo I
(EVI).

5.4. Ajuste a una distribución de probabilidad


Una distribución de probabilidad es una función que representa la probabilidad de
ocurrencia de una variable aleatoria. Mediante el ajuste a una distribución de un conjunto
de datos hidrológicos, una gran cantidad de información probabilística en la muestra
puede resumirse en forma compacta en la función y en sus parámetros asociados. El ajuste
de distribuciones puede llevarse a cabo por el método de los momentos o el método de la
máxima verosimilitud.

5.4.1. Método de los momentos


El método de los momentos fue desarrollado por primera vez por Karl Pearson en
1902. Él consideró que unos buenos estimativos de los parámetros de una función de
probabilidad son aquellos para los cuales los momentos de la función de densidad de
probabilidad alrededor del origen son iguales a los momentos correspondientes de la
información de la muestra. Tal como se muestra en la figura 5.9, si a cada uno de los
valores de la información se le asigna una “masa” hipotética igual a su frecuencia relativa
de ocurrencia (1/n) y si se imagina que este sistema de masas se rota alrededor del origen
x = 0, entonces el primer momento de cada observación x, alrededor del origen es el
producto de su brazo de momento xi y de su masa 1/n, y la suma de estos momentos para

111
Hidrología de superficie

toda la información es la media de la muestra.

Figura 5.9. Método de los momentos

n xi 1 n
∑ = ∑ xi = x (5.49)
i =1 n n i =1

Esto es equivalente al centroide de un cuerpo. El centroide correspondiente de la


función de probabilidad es


µ = ∫ xf ( x)dx
−∞ (5.50)

Igualmente, los segundo y tercer momentos de la distribución de probabilidad


pueden igualarse a los valores de la muestra para determinar los valores de los parámetros
de la distribución de probabilidad. Originalmente Pearson consideró solamente momentos
alrededor del origen, pero posteriormente se volvió común el uso de la varianza como el
segundo momento central, σ2 = E|x - µγ2|, y el coeficiente de asimetría como el tercer
112
Estadística hidrológica

momento central estandarizado, γ = E|(x - µ)3|/σ3, para determinar el segundo y el tercer


parámetro de la distribución si se requería.

5.4.2. Método de máxima verosimilitud


El método de la máxima verosimilitud fue desarrollado por Fisher. Él razonó que
el mejor valor de un parámetro de una distribución de probabilidad debería ser el valor
que maximizara la verosimilitud o probabilidad conjunta de ocurrencia de la muestra
observada. Supóngase que el espacio muestral se divide en intervalos de longitud dx y se
toma una muestra de observaciones independientes e idénticamente distribuidas x1, x2,...,
xn. El valor de la densidad de probabilidad para X = x1, es f(x1) dx. Debido a que las
observaciones son independientes, su probabilidad de ocurrencia conjunta está dada por

P( A ∩ B ) = P( A)P(B ) (5.51)

como el producto f(x1) dx f(x2) dx ... f(xn) dx = [Πni=1 f(x1)] dxn, y puesto que el tamaño del
intervalo dx es fijo, el maximizar la probabilidad conjunta de la muestra observada es
equivalente a maximizar la función de verosimilitud:

n
L = ∏ f ( xi )
i =1 (5.52)

Debido a que muchas funciones de densidad de probabilidad son exponenciales,


algunas veces es conveniente trabajar con la función logaritmo de la verosimilitud

n
ln L = ∑ ln[ f ( xi )]
i =1 (5.53)

El método de la máxima verosimilitud teóricamente es el más correcto para ajustar


distribuciones de probabilidad a información en el sentido de que produce los estimativos
de parámetros más eficientes, aquellos que estiman los parámetros de la población con los
menores errores promedio. Pero, para algunas distribuciones de probabilidad, no existe
113
Hidrología de superficie

solución analítica para todos los parámetros en términos de las estadísticas de la muestra y
la función logaritmo de verosimilitud debe maximizarse numéricamente, lo cual puede ser
bastante difícil. En general, el método de los momentos es más fácil de aplicar que el
método de la máxima verosimilitud y es más apropiado para análisis prácticos en
hidrología.

5.4.3. Prueba de la bondad del ajuste


La bondad del ajuste de una distribución de probabilidad puede probarse
comparando los valores teóricos y muestrales de las funciones de frecuencia relativa o de
frecuencia acumulada. En el caso de la función de frecuencia relativa se utiliza la prueba
X2. El valor muestral de la frecuencia relativa del intervalo i es fs(x1) = n1/n; y el valor
teórico es p(x) = F(xi) - F(xi-1). La prueba estadística, X2, X2e, está dada por

n[ f s ( xi ) − p( xi )]
m 2

X =∑ 2
e
i =1 p ( xi ) (5.54)

donde m es el número de intervalos. Debe notarse que nfs(xi) = ni, el número de


ocurrencias observadas en el intervalo i, y np(xi) es el correspondiente número esperado
de ocurrencias en el intervalo i; luego el cálculo de la ecuación (5.54) se limita a elevar al
cuadrado la diferencia entre el número de ocurrencias observadas y esperadas, dividiendo
por el número de ocurrencias esperadas en el intervalo y sumando el resultado para todos
los intervalos.

Para describir la prueba X2, debe definirse la distribución de probabilidad X2. Una
distribución X2 con v grados de libertad es la distribución para la suma de los cuadrados
de v variables aleatorias normales independientes zi; esta suma es la variable aleatoria

v
X v2 = ∑ z i2
i =1 (5.55)

114
Estadística hidrológica

La función de distribución X2 está tabulada en muchos textos de estadística. En la


prueba X2, v = m - p - 1, donde m es el número de intervalos tal como se describió
anteriormente y p es el número de parámetros utilizado en el ajuste de la distribución
propuesta. Se escoge un nivel de confianza para la prueba; éste usualmente se expresa como
1 - α, donde α se conoce como el nivel de significancia. Un valor típico para el nivel de
confianza es del 95%. La hipótesis nula para la prueba es que la distribución de
probabilidad propuesta ajusta adecuadamente la información. Esta hipótesis se rechaza (es
decir, el ajuste se considera como inadecuado) si el valor de X2c en (5.55) es mayor que un
valor límite, X2v,1-α, determinado de la distribución X2 con v grados de libertad como el
valor que tiene una probabilidad acumulada de 1 - α.

5.5. Regresión y correlación


Gracias a la práctica se ha observado que para que los métodos estadísticos sean
confiables, se deben basar en la información hidrológica disponible y con un periodo
mínimo de observaciones igual a 20 años. Sin embargo, frecuentemente ocurre que las
estaciones hidrométricas puedan tener periodos menores a los 20 años. En estos casos lo
que se puede hacer es prolongar la serie hidrológica disponible hasta alcanzar el número
de datos necesario.

La prolongación de series hidrológicas se realiza por medio de la correlación lineal


(simple o múltiple), y consiste en localizar una estación cuyas condiciones
(climatológicas, topográficas, geológicas, etc.) sean similares a las de la estación en
estudio, y que además cuente con un periodo de observaciones lo suficientemente grande.
De existir esta estación análoga, sus datos pueden complementar a los de la estación en
estudio.

5.5.1. Correlación lineal simple


La correlación lineal entre dos variables se tiene cuando la función de regresión es
una línea recta:

y = a + bx (5.56)

115
Hidrología de superficie

donde a y b son los coeficientes de regresión

El ajuste de los datos a una recta se hace de tal manera que se minimizan
las desviaciones entre los datos observados y los calculados. Lo anterior se logra
determinando los coeficientes de regresión por el método de mínimos cuadrados:

a= ∑ y ∑ x 2 − ∑ x ∑ xy
(5.57)
n ∑ x 2 − (∑ x )
2

n∑ xy − ∑ x ∑ y
b= (5.58)
n ∑ x 2 − (∑ x )
2

Este método se recomienda siempre y cuando la correlación entre los datos de


ambas estaciones sea significativa, esto es, que el coeficiente de correlación sea mayor a
0.8:

n∑ xy − ∑ x ∑ y
r= ≥ 0.8 (5.59)
[n∑ x ] [n∑ y ]
1 1
− (∑ x ) − (∑ y )
2 2 2 2 2 2

Sx
r =b (5.60)
Sy

Si r oscila entre -1 y +1 : se dice que la correlación es funcional


Si r es igual a 0 : entonces la correlación no es aceptable

Además, si r es mayor o igual a 0.8, se dice que la correlación es fuerte o de buena


exactitud, mientras que si r es menor a 0.8 la correlación es débil y existe mucha
dispersión entre datos y resultados.
116
Estadística hidrológica

Una vez conocidos los coeficientes de regresión, se procede a calcular los valores
complementarios de la estación en estudio, apoyándose en los valores conocidos
simultáneos de la estación análoga.

Cabe hacer notar que las variables x y y deben ser del mismo tipo. Sin embargo, es
posible correlacionar variables de diferente especie (por ejemplo, gasto contra
precipitación) siempre y cuando su correlación sea significativa.

5.5.2. Correlación lineal múltiple


En este tipo de correlación la variable dependiente es función de dos o más
variables independientes y su función de regresión tiene la forma:

y = a0 + a1 x1 + a2 x2 + ... + an xn (5.61)

y los coeficientes de regresión se obtienen por el método de mínimos cuadrados, de forma


análoga a la correlación lineal simple, por lo que se tiene:

∑ yi − na0 − a1 ∑ x1 − a2 ∑ x2 − ... − an ∑ xn = 0
∑ yi x1 − a0 ∑ x1 − a1 ∑ x1 − a2 ∑ x1 x2 − ... − an ∑ x1 xn = 0
2

∑ yi x2 − a0 ∑ x2 − a1 ∑ x1 x2 − a2 ∑ x2 − ... − an ∑ x2 xn = 0
2
(5.62)
...
∑ yi xn − a0 ∑ xn − a1 ∑ x1 xn − a2 ∑ x2 xn − ... − an ∑ xn = 0
2

El sistema de ecuaciones debe resolverse por cualquier método conocido para


obtener a0, a1, a2, ..., an y satisfacer la ecuación (5.61).

5.5.3. Correlación no lineal


La correlación no lineal entre dos variables se da cuando la función de regresión es
una línea curva de la forma:

117
Hidrología de superficie

y = cx k (5.63)

donde c y k son los coeficientes de regresión, por lo que la función queda expresada
como:

log y = a0 + a1 log x (5.64)

La ecuación anterior puede entonces resolverse de manera análoga a la ecuación


(5.56) donde el antilogaritmo es:

c = anti log a0
k = a1

Si la ecuación (5.64) se resolviera como una correlación no lineal:

y = a0 + a1 x + a2 x 2 + ... + ak x k (5.65)

y se obtienen los coeficientes de regresión por el método de mínimos cuadrados:

∑ yi − na0 − a1 ∑ xi − a2 ∑ xi − ... − ak ∑ x k = 0
2

∑ yi xi − a0 ∑ xi − a1 ∑ xi − a2 ∑ xi − ... − ak ∑ x k +1 = 0
2 2

k +2
∑ yi xi − a0 ∑ xi − a1 ∑ xi − a2 ∑ xi − ... − ak ∑ xi = 0
2 2 3 4
(5.66)
...
k +1 k +2
∑ yi x k − a0 ∑ xi − a1 ∑ xi − a2 ∑ xi − ... − ak ∑ xi
k 2k
=0

resolviendo así el sistema de ecuaciones por los métodos conocidos.

118

También podría gustarte