4 Probabilidad y Estadistica

PROBABILIDAD Y ESTADÍSTICA
DATOS HIDROMETEREOLÓGICOS
Variables aleatorias
Una variable aleatoria X(t) tiene una cierta distribución
probabilística. Esa distribución determina la posibilidad
de que una determinada observación X, de la variable,
caiga dentro de un rango especificado de X. Sí, por
ejemplo la precipitación media de enero, en un lugar, es
de 50 mm, la distribución probabilística podría establecer
que pueda estar en el rango entre 40 y 60 milímetros.
C.L.V.P.
DATOS HIDROMETEREOLÓGICOS
Series de Tiempo
Una serie de tiempo se define, en hidrología, como
la magnitud de un evento observado en forma
discreta a intervalos de tiempo, dt, promediados en ese
intervalo o registrados en forma continua en un tiempo,
t, por ejemplo caudales medios, diarios, promedio de
caudales instantáneos a través de un intervalo discreto
de 1 día, o caudales instantáneos registrados en forma
continua durante todos los instantes de cada día.
C.L.V.P.
PARÁMETROS ESTADÍSTICOS
Medidas de tendencia hacia un valor central de la

serie
Promedio aritmético o media aritmética (µ) es el
primer momento alrededor del origen. Aunque da
información sobre la muestra, este parámetro no
caracteriza completamente a una variable aleatoria. Si la
muestra es pequeña y contiene valores extremos (altos o
bajos) el promedio no será un parámetro real en relación
con la población. Se calcula mediante la expresión:
_  xi
x    i 1
C.L.V.P.
N
Medidas de tendencia hacia un valor central de la

serie
Promedio geométrico: se calcula con la siguiente
expresión:
_
xg  n x1 * x2 * x3 * ...xn
C.L.V.P.
Mediana (M): es el valor de la variable que deja con igual

probabilidad de ocurrencia (0.50) los valores abajo y arriba
de ella, por lo tanto, la mediana resulta atractiva, en el
caso de series que se apartan de la normal.
Moda: es el valor de la variable que ocurre con

mayor frecuencia.
C.L.V.P.
En hidrología se tienen frecuentemente muestras de

distintos tamaños N1, N2, N3... NR y se necesita obtener el
promedio ponderado de todas ellas, así:
k
_  N * x  i i
xp  i 1
k
N
i 1
i
C.L.V.P.
Medidas de Dispersión
Las medidas de dispersión miden como los valores de una
variable se dispersan alrededor del valor central o media
aritmética de la serie; es decir, representan una distribución
alrededor de un valor medio.
Desviación media (σM): Es la media aritmética del valor

absoluto de los errores. Se calcula con la siguiente
expresión:
N _
 x x i
M  i 1
N
C.L.V.P.
Desviación estándar (σ): Es el parámetro de dispersión más

usado en hidrología, se llama también desviación
cuadrática. Es la raíz cuadrada de la varianza y tiene las
unidades de X.
2
N
 _

  i
x  x 
  i 1  
N 1
C.L.V.P.
La varianza: es el cuadrado de la desviación estándar (σ2 ) y
es el segundo momento alrededor de la media. Sus unidades
son el cuadrado de las unidades de la variable. En general, es
un indicador que indica cuanto cerca de la media está el valor
de la variable. Si teóricamente todos los valores fueran igual a
la media, la varianza sería cero.
La ecuación de la varianza se puede también expresar
desarrollando el trinomio cuadrado perfecto del numerador.
2
N
 _

  i
x  x 
 2  i 1  
N 1
C.L.V.P.
Covarianza. Cuando se analiza la varianza de dos (X, Y) ó

más variables (X, Y, Z). En el caso de dos variables, la
covarianza es la media aritmética del producto de los
errores de X, e Y, y se expresa mediante la siguiente
ecuación:
1 N  _
  _

Cv X , Y     xi  x  *  yi  y 
N i 1    
C.L.V.P.
Coeficiente de variación: es el cociente entre la desviación

estándar y el promedio, X . Es adimensional.
 
Cv  _ 
x 
C.L.V.P.
El coeficiente de asimetría (g): Es el tercer momento

alrededor de la media. Describe la distribución de los datos
alrededor de media. Es una medida de la simetría. Una
distribución simétrica tiene un coeficiente de asimetría igual
a cero cuando los datos se distribuyen alrededor de la
media; negativo cuando la distribución de los datos tiene
mayor sesgo a la izquierda y positivo cuando tiene mayor
sesgo a la derecha, según como se desvíe hacia valores
bajos o altos con relación a la media. Es un parámetro muy
usado en estudios regionales, se calcula con la expresión:
3
N
  _
N *   xi  x 
i 1  
g
N  1* N  2* 3
C.L.V.P.
DISTRIBUCIONES DE PROBABILIDAD
DISTRIBUCIÓN DE VARIABLES DISCRETAS
C.L.V.P.
DISTRIBUCIÓN BINOMIAL
La distribución discreta binomial de probabilidad se

aplica a poblaciones que sólo tienen dos eventos
discretos y complementarios. Una condición esencial
para esta aplicación es la independencia de eventos
sucesivos (observaciones o experimentos) y las
probabilidades constantes p y q de cada ensayo
individual. Esta condición se debe verificar con los datos
a utilizar.
C.L.V.P.
La función de probabilidad acumulada es:
 n  x n x
P( x )    * p * q
 x
C.L.V.P.
Donde:
x es el número de veces que ocurre el evento.
P(x) es la probabilidad de ocurrencia x = 0, 1, 2 .... etc.
n es el tamaño de la muestra (número de observaciones
independientes o casos posibles).
m es el número de eventos
q es la probabilidad de no excedencia, dada por:
q=1-p
p es la probabilidad de excedencia, calculada mediante la
expresión:
n
p
C.L.V.P. m
es el número combinatorio de n valores tomados de x, se
evalúa así: n n!
  
 x  x!n  x !
C.L.V.P.
_
El valor esperado (promedio): x  n* p
La varianza:  2  n* p*q
q p
El coeficiente de asimetría: g
n* p*q
El coeficiente de kurtosis:
 1 6 *  p * q 
k     3
 n* p*q 
C.L.V.P.
DISTRIBUCIÓN DE POISSON
Un caso interesante se presenta cuando el tamaño de la
muestra, n, es muy grande y tiende a infinito, mientras que
la probabilidad, p, muy pequeña y tendiente a cero, pero
su producto, m, es un número positivo, entonces se tiene la
función de densidad de probabilidad discreta de Poisson:
m xem
p( x ) 
x!
C.L.V.P.
DISTRIBUCIÓN DE POISSON
_
El valor esperado (promedio): xm
La varianza:  m2
1
El coeficiente de asimetría: g
m
C.L.V.P.
DISTRIBUCIÓN DE VARIABLES CONTINUAS

Las distribuciones continuas se caracterizan porque F(x) es
absolutamente continua. Por consiguiente F(x) tiene como
derivada:
F´(x)  f ( x)
La función de distribución de probabilidad es F(x)
x
dF ( x)
F ( x)   f ( x)dx ó f ( x) 

dx
C.L.V.P.

La derivada f(x) se denomina función de densidad de
probabilidad y los valores de x para los cuales f(x) > 0 son
el dominio de la variable aleatoria x.
C.L.V.P.

En el cálculo de probabilidades de eventos mayores, la
variable x, puede representarse por el promedio x, más un
incremento dx, de ese valor medio:
C.L.V.P.

La magnitud de dx depende de la dispersión característica
de la distribución de x, del intervalo de recurrencia y otros
parámetros estadísticos. Es posible entonces representar a
dx como el producto de la desviación estándar y de un
factor
_ de frecuencia k, así:
x  x  k * x    k *
ó
C.L.V.P.

Dividiendo por el valor medio para generalizar el resultado haciéndola
adimensional es:
x  x 
 1 k * ó  1 k *
 
_ _
x x
Pero coeficiente de variación de x, es:
 
Cv  ó Cv 
_
x 
C.L.V.P.

Luego, se obtiene la ecuación general del análisis de
frecuencia propuesta por Chow (1964):
x x
 1  k * Cv  1 k * Cv

_
x
C.L.V.P.
C.L.V.P.

Establecido, a priori, un valor de grado de confianza, (80%, 82%, 85%
ó 95%), para cada uno corresponderá un nivel de significancia. OMM
(1982) sugiere tomar como aceptable un grado de confianza del 80%.
El factor más significativo que afecta esta banda, es el grado de
confianza que se desee establecer. Se usa frecuentemente el 95%, pero
valores entre 70% y 95% son comunes en el diseño hidrológico.
• El tamaño de la muestra con la que se computó la curva de
frecuencia, afecta el ancho de la banda. A mayor tamaño de muestra,
disminuye el intervalo.
• La probabilidad de excedencia afecta la amplitud del intervalo; el
intervalo es menor para valores promedios y se hace mayor en las
puntas (probabilidades mayores y menores).
• El coeficiente de asimetría afecta el intervalo de confianza. La
asimetría afecta el error estándar, por lo tanto el ancho de la banda
aumenta con el aumento del valor absoluto de la asimetría.
C.L.V.P.
DISTRIBUCIÓN NORMAL
La distribución normal (Gaussiana) surge del teorema del
límite del valor central, el cual establece que una variable
aleatoria x está normalmente distribuida con el promedio µ
y la desviación estándar σ. La función de distribución de
probabilidad (frecuencia acumulada) proporciona la
probabilidad de que X sea menor o igual a x así:
 1 
x
 x   2 
F ( X  x)    *  exp   2 
dx
  * 2    2 * 
C.L.V.P.
C.L.V.P. Distribución típica normal

La función de densidad de probabilidad, está dada por:
 1   x   2 
f ( x)    * exp   
  * 2   2 
2
C.L.V.P.
DISTRIBUCIÓN LOGNORMAL DE DOS PARÁMETROS

También se la denomina función de Galton (estudiada por
Galton en 1875). Es una distribución donde la variable x se
reemplaza por su logaritmo (ln x), siendo en este caso su
rango sólo de valores positivos de (x > 0), lo cual en la
hidrología es una ventaja sobre la normal.
La función de densidad de probabilidad es:
    y  y  
2
f x   
1 1
 exp  *   
 x * * 2   2    
 y    y  
C.L.V.P.

Donde y es el logaritmo natural de x: y = ln (x)
σy es la desviación estándar de y.
µy es el promedio de y se calcula así:
y 
 ln( x) _
y
N
N es el número de datos de la muestra.
C.L.V.P.

Los parámetros estadísticos de x Chow (1954) se calculan
con las siguientes expresiones:
El valor esperado (promedio):
  y2 
 x  exp   y  
 2 
Mediana:
M x  exp  y 
x   y2 
 exp  
Mx  2 
C.L.V.P.
 

Desviación estándar:
   * exp    1
1
2 2
y
El coeficiente de asimetría:
g  3 * Cv  Cv3
El coeficiente de variación:
   
1
Cv  exp  y2  1 2
C.L.V.P.

El factor de frecuencia, k , se puede calcular con la
ecuación siguiente (Chow, 1964)
  2 
  *k  y 
 y y 2 
e  
1
k
e 1
1
 y2 2
 _

 y  y 
ky   
y
C.L.V.P. _
y  y  k y * y
DISTRIBUCIÓN LOGNORMAL DE TRES PARÁMETROS

La distribución log normal se puede generalizar para casos
en que el límite inferior de la misma no sea cero, en este
caso se introduce un tercer parámetro que lo sustituya (x-
β). La función de densidad de probabilidad toma la forma:
f ( x) 
1
exp 

 ln x      y
  
2

x   * y * 2  2 *2y 

C.L.V.P.
DISTRIBUCIÓN LOGNORMAL DE TRES PARÁMETROS

Donde β es el límite inferior, x la variable. Si el límite
inferior, β, se conoce a priori, la variable x, se reemplaza
por (x-β) y se procede como en la lognormal de dos
parámetros. Cuando el límite inferior no se conoce, este se
determina por los métodos de estimación de parámetros.
La distribución lognormal se usa corrientemente en
hidrología para variables como precipitación, caudal y otras
medidas desde base cero, cuyo límite superior es
desconocido.
La práctica hidrológica ha definido que la distribución
lognormal se ajusta bien para numerosas variables
asimétricas que se toman encima de un valor de base
(series de duración parcial).
C.L.V.P.
DISTRIBUCIONES TIPO PEARSON

Estas funciones de probabilidad se ajustan bien a varias
distribuciones, la ecuación general que define la distribución
acumulada (Chow, 1964) es:
 
F ( x)  exp  
a  x 
dx 

  b0  b1 * x  b2 * x
2
 
Donde a, b0, b1 y b2 son constantes que se deben

determinar experimentalmente.
En hidrología se usan distribuciones pertenecientes a esta
familia de funciones, es decir, son casos especiales de la
general.
C.L.V.P.
DISTRIBUCIÓN GAMMA DE UN PARÁMETRO

* xa 1Exp  x   0  x

1
f ( x) 
 *a
f(x) = 0 ⇒ para x<0
Donde α es el parámetro de forma. Si α no es entero, el
producto aΓ se obtiene de tablas que se encuentran en
la literatura Si a es entero y positivo, el producto se
evalúa mediante la expresión:
C.L.V.P.
a  a  1!

Los parámetros estadísticos de la distribución son:
(Yevjevich 1972)
Promedio: _
x    a; 0 x
Varianza:
 2 a
Coeficiente de asimetría:
2
g
a
C.L.V.P.

La función de distribución gamma de un parámetro
converge para valores elevados de a hacia la distribución
normal (a > 30) y se puede integrar para valores enteros
de a.
C.L.V.P.
DISTRIBUCIÓN GAMMA DE DOS PARÁMETROS

La función de densidad de probabilidad de esta distribución,
se obtiene sustituyendo en la ecuación de la distribución
Gama de un parámetro, x por x/β, así:
1  a 1   x 
f ( x)  a 
*  x Exp     para 0 x
 a    
f ( x)  0  para x *0
C.L.V.P.

Donde a es el parámetro de forma (a > 0) y β el parámetro
de escala (β > 0). El producto: a Γ se evalúa mediante la
siguiente expresión:
a  a  1!
C.L.V.P.

Los parámetros estadísticos para x son:
Promedio:
 a *
Varianza:
 2 a * 2
2
g
C.L.V.P. a
Función de densidad de probabilidad de dos parámetros

(Yevjevich,1972) para a=2 y tres valores de β
C.L.V.P.
DISTRIBUCIÓN PEARSON III (GAMMA DE TRES

PARÁMETROS) (KENDALL, 1969)
La función densidad es:
P0 * x  E  exp  P0 x  E 
  1
f ( x) 

para x ≥ E
Donde: Γβ es la función gamma de β
β, Po, y E son los parámetros de la distribución. Se calculan
mediante las expresiones:
x 2
2 _
p0      E  x  x * 
C.L.V.P.  g
DISTRIBUCIÓN LOG PEARSON III

Es la distribución Pearson III, pero usada con los logaritmos
de los valores de la muestra. Es una distribución muy usada
en Estados Unidos y recomendada por el USWRC (1976). A
diferencia de las ecuaciones de lognormal que usan
logaritmos naturales, esta distribución usan los logaritmos
en base 10 (log).
Po  y  E  * exp  P0 *  y  E 
 1
f ( x) 
x
Donde y = log x; para log x >= E
C.L.V.P.
β, Po, y E son los parámetros de la distribución. Se calculan
mediante las expresiones:
y
P0 

2
 2 
  
 g * y 
_
E  y  y * 
Siendo: β Γ la función gamma de β , σy la desviación estándar
de y, g el coeficiente de asimetría de y.
C.L.V.P.
El USWRC (1976) recomienda esta distribución para definir series
anuales de crecidas. Últimamente ha sido bastante cuestionada
esta metodología, aunque conviene tenerla presente en el diseño
hidrológico.
Para calcular el coeficiente de frecuencia, k, de la distribución Log-
Pearson III (para caudales máximos anuales), la ecuación
recomendada (USWRC, 1976) es: _
Log (Q)  x  x * k
Donde: x es la media de los logaritmos decimales de x.
x es la desviación estándar de los logaritmos
decimales de x
k es el factor de frecuencia que es función del
coeficiente de asimetría de los logaritmos decimales de
los caudales máximos medios diarios anuales y de la
probabilidad de excedencia
Log(Q) es el logaritmo decimal del caudal Q en m3/s
C.L.V.P.

El cálculo del coeficiente de frecuencia, para una muestra de n valores,
se realiza mediante el uso de los siguientes parámetros estadísticos:
Promedio: _
x
 log( x)

N
Desviación estándar: 2
 _

  log( x)  x 
x 
( N  1)
N  log( x)  x 
3
g
N  1N  2 x 3
Si se trabaja con asimetría g=0, la distribución log Pearson III es igual a
log-normal.
C.L.V.P.
Distribución General de Valores Extremos (GEV)

Las tres formas de distribución de valores extremos son
casos especiales de la distribución general de valores
extremos (Jenkinson, 1955). La función de distribución
acumulada es:
 1

     
F ( x)  exp  1  k * 
x k
 
   a  
 
Donde k, μ y a son parámetros a determinar. Luego:
Si k = 0, es la distribución tipo I (Gumbel).
Si k < 0, es la distribución tipo II (Frechet).
Si k > 0, es la distribución tipo III (Weibull).
C.L.V.P.
Distribución Tipo I (Gumbel)

La función de distribución acumulada es: (Yevjevich,
1972)
F ( X  x)  exp  exp  a * x   
Donde a es el parámetro de forma y β el parámetro de
localización (valor central).
Haciendo uso de una variable reducida, y:
y  a * x   
La función de distribución queda:
C.L.V.P. F ( X  x)  exp  exp  y   e e y

Cuando x o y tienden a +∞ ó a -∞, F(x) tiende a 0 ó a
1, respectivamente. Los valores de a y β, están
vinculados a la media (μ) y a la desviación estándard (σ)
por valores constantes o variables según sea el
tamaño de la muestra. Conocidos μ y σ los valores de a
y β son:
    0.45 *
1.281
a

La asimetría es constante: (g=1.139)
C.L.V.P.

Para calcular el coeficiente de frecuencia, k, de la
distribución Gumbel tipo I (valores extremos), partiendo de
la ecuación de densidad de probabilidad de Gumbel, (Chow,
1964) lo expresa como:
6    TR  
k  *   ln  ln   

    TR  1  
Donde γ es la constante de Euler igual a 0.57721 (Kreyszic,

1964).
TR es el tiempo de recurrencia o período de retorno en años.
C.L.V.P.

Despejando el período de retorno, TR , se tiene:
1
TR 
    * k  
1  exp  exp       
   6  
x
Pero se sabe que: _
 1  k * Cv
x
_
Cuando: xx  1  1  Cv * k
C.L.V.P.

Luego, en la ecuación anterior, cuando k = 0, TR = 2.33
años que es el tiempo de retorno que el U. S. Geological
Survey toma para la creciente anual (U. S. Geological
Survey, 1960).
Desde el punto de vista del diseño hidrológico se trabaja
con tablas de valores de k, Para ello se debe definir la
“variable reducida” (Linsley et al., 1975).
La distribución de probabilidad de una variable que puede
ser igualada o excedida es:
e y
P( x )  1  e
C.L.V.P.

Donde y es la variable reducida. El valor de y se relaciona
con los datos por la siguiente ecuación (Chow et al., 1994)
_  y  yn 
x  x    x
 n 
Donde: x es el promedio de la serie de datos.
σx es la desviación estándar de x.
σn, yn son funciones de la longitud del registro (ver
tabla siguiente).
C.L.V.P.
Distribución Tipo I (Gumbel) N (años) yn n
20 0,52 1,06
30 0,54 1,11
40 0,54 1,14
50 0,55 1,16
60 0,55 1,17
70 0,55 1,19
80 0,56 1,19
Valores de yn y σn en función de 90 0,56 1,20

la longitud del registro, N, en 100 0,56 1,21
años.
150 0,56 1,23
200 0,57 1,24

C.L.V.P.
0,57 1,28

El valor de la variable reducida se encuentra con la
siguiente ecuación:
  TR 
y   ln ln  
  TR  1 
La tabla de valores de k, se calcula así: se obtiene primero
los valores de y para diferentes períodos de retorno, (TR)
mediante la ecuación anterior. Luego, con la longitud del
registro, N (en años), se obtienen en la tabla anterior, yn,
σn y los valores de k que figuran en la Tabla siguiente.
C.L.V.P.
Valores de k para la distribución Gumbel de valores extremos Tipo I (Adaptada de Linsley et al, 1975).
TR Probabilidad Variable Longitud del registro, N (años)

(años) ocurrencia reducida
y 20 30 40 50 100 200 ∞
1.58 0.63 0.000 -0.492 -0.482 -0.476 -0.473 -0.464 -0.459 -0.450
2.00 0.50 0.367 -0.417 -0.152 -0.155 -0.156 -0.160 -0.162 -0.164
2.33 0.43 0.579 0.052 0.038 0.031 0.026 0.016 0.010 0.001
5 0.20 1.500 0.919 0.866 0.838 0.820 0.779 0.755 0.719
10 0.10 2.250 1.62 1.54 1.50 1.47 1.40 1.36 1.30
20 0.05 2.970 2.30 2.19 2.13 2.09 2.00 1.94 1.87
50 0.02 3.902 3.18 3.03 2.94 2.89 2.77 2.70 2.59
100 0.01 4.600 3.84 3.65 3.55 3.49 3.35 3.27 3.14
200 0.005 5.296 4.49 4.28 4.16 4.09 3.93 3.83 3.68
400 0.0025 6.000 5.15 4.91 4.78 4.56 4.51 4.40 4.23
500 0.002 6.01 5.36 5.10 4.97 4.87 4.66 4.54 4.40
C.L.V.P.
1000 0.001 6.91 6.03 5.73 5.58 5.48 5.25 5.11 4.95
Distribución Tipo II (Cauchy o Frechet)

Cuando el límite inferior es cero (0 < x < ∞) y tomando
los logaritmos de x, se tiene una distribución de uso
práctico, que es un caso especial de Frechet (Log
Gumbel).
  s 
F ( X  x)  exp  exp   y  
  t 
Donde:
y  ln( x), s  ln(  ), t  ln(a )

C.L.V.P.
Distribución Tipo II (Cauchy o Frechet)
La distribución, se ajusta con el uso de un factor de

frecuencia k, que es igual al que se usa para Gumbel,
estableciendo el límite inferior cero. Se usa al igual que
Gumbel para valores extremos. No deben usarse para
series de duración parcial, sino sólo para anuales.
C.L.V.P.
Distribución Tipo III (Weibull) (Chow, 1964)

Cuando existe un límite superior la ecuación de
probabilidad acumulada es:
 x  E 
k
F ( X  x)  exp   
  E 
Donde: x ≤ E, en el rango de -∞ < x < E

k es el factor de frecuencia , k > 0.
a
E es calculado mediante la siguiente expresión: E
θ es el mayor valor esperado de E k
C.L.V.P.
Distribución Tipo III (Weibull) (Chow, 1964)
Esta distribución se usa para análisis de frecuencia de

caudales bajos (sequías). Los análisis de caudales bajos
resultan importantes en el aprovechamiento, regulación de
ríos y estudio de descargas de contaminantes.
A diferencia del estudio de frecuencia de crecidas, donde se
usan caudales instantáneos, en caudales bajos es
conveniente establecer promedios de 1 semana o 1 mes ó
una estación según se especifique. O sea, se hace
referencia a caudales bajos de duración D días para cada
año hidrológico. Para este análisis, se recomiendan la
distribución Log-Pearson III y Weibull donde en lugar de
usar la probabilidad de excedencia se usa la de no
excedencia. Esto es importante porque el evento de tiempo
de retorno de x años (TR) es el valor que no debe ser
excedido.
C.L.V.P.
Distribución de Wakeby
Esta distribución fue introducida en los análisis de los
valores de caudales máximos por Houghton. Como
define Houghton en su trabajo, esta distribución es una
distribución “parent” (madre u origen de las otras). Es
una distribución de 5 parámetros que supera a las
tradicionales de dos o tres parámetros, de modo que se
muestra más flexible sobretodo en relación con la
separación de la cola derecha y de la izquierda de la
distribución.
C.L.V.P.
La función inversa de distribución de probabilidad es:
x  a * 1  F   c * 1  F   e
b d
Donde F es la variable uniforme (0, 1), F = F(x), a, b, c

y d son siempre positivas y e a veces es positiva.
(Houghton, 1978).
C.L.V.P.
Esta distribución fue introducida en los análisis de los
valores de caudales máximos por Houghton. Como
define Houghton en su trabajo, esta distribución es una
distribución “parent” (madre u origen de las otras). Es
una distribución de 5 parámetros que supera a las
tradicionales de dos o tres parámetros, de modo que se
muestra más flexible sobretodo en relación con la
separación de la cola derecha y de la izquierda de la
distribución.
C.L.V.P.
Aplicaciones frecuentes en diseño hidrológico

Las funciones de distribución de variables aleatorias tienen una
fuerte aplicación en diseño hidrológico. Una distribución de
probabilidad es una función que representa la probabilidad de
ocurrencia de una variable aleatoria. Esto significa que el ajuste de
los datos de una muestra de una variable hidrológica permite
describir en forma compacta, la función y sus parámetros,
explicando mediante ellos, el comportamiento a esperar de la
variable hidrológica.
Si una variable hidrológica x se obtiene por medio de una muestra
de una población, el procedimiento común en estadística, es
primero seleccionar la función de distribución que mejor ajuste. Esta
selección se hace mediante la experiencia adquirida en el
tratamiento de la misma variable, en otros lugares o situaciones
conocidas (caudales de los ríos, lluvias en un lugar) o también por
consideraciones físicas (régimen hidrológico, condiciones
meteorológicas) o simplemente por ensayo y error. Actualmente,
esto es posible con el uso de la computación y los programas
existentes que permiten hacerlo con facilidad y rapidez. El segundo
paso, es estimar los parámetros de esa distribución por métodos de
ajuste para finalmente calcular los límites de confianza y realizar las
pruebas de bondad de ese ajuste.
C.L.V.P.
Resumen de las Funciones de Distribución de Probabilidad más usadas en Hidrología
Tipo de Distribución Utilización Observaciones
Binomial Variables discretas Eventos si – no
Poisson Variables discretas Si al probabilidad es pequeña y el

número de eventos N, grande
Normal (Gauss) Variable continua Records extensos de lluvia y cuadales medios
de largos intervalos (1 año, 2 años, 5 años, 10 años)
Log-Normal de 2 parámetros Variable continua Precipitación, caudales anuales.
y de 3 parámetros Series de duración parcial
Gamma de 2 parámetros Variable continua Frecuencia de caudales y lluvias.
Generación de hidrogramas sintéticos
Tipo I (Gumbel) Valores extremos Valores extremos de caudales
Tipo II (Frechet) Valores extremos, Log – Gumbel en un caso especial de tipo II.
limite inferior cero
Tipo III (Weibull) Existe un limite Valores mínimos de caudales o lluvias
superior (E)
General de Valores Extremos Incluye los Determinación del tipo de
(GEV) Tipo I, II y III distribución más conveniente
Wakeby Es de uso general Explica el “Efecto de Separación”
Exponencial Semilogaritmica Series de duración parcial

C.L.V.P.
Log-Pearson III Variable continua Caudales y lluvias máximas anuales.
AJUSTE DE LA DISTRIBUCIÓN.
ESTIMACIÓN DE PARÁMETROS
Después que los datos han sido ordenados y depurados

el principal objetivo de la inferencia estadística es la
estimación de los parámetros de la función de
distribución de probabilidad.
Cuanto más confiable sea la estimación de los
parámetros en la muestra, mejor y más confiable será la
información que se puede extraer del análisis
estadístico. Si los datos son buenos a mayor número de
ellos más cercano se estará de la verdadera distribución.
C.L.V.P.
Los métodos de ajuste son de dos clases: analíticos y

gráficos. El cálculo analítico con resultado analítico-
gráfico es incluido en los software actuales. En general el
cálculo de parámetros para ajuste de la curva de
distribución se hace por tres métodos analíticos: el
método de los momentos; el método de mínimos
cuadrados y método de máxima verosimilitud.
C.L.V.P.
Métodos Analíticos
Los métodos descritos a continuación, son los ajustes
analíticos de un conjunto de datos a una curva de
distribución de probabilidad.
C.L.V.P.
Método de los Momentos

Por este método introducido por Pearson, se establecen
relaciones entre los N parámetros de la distribución
seleccionada y los n primeros momentos de la muestra.
Así para cada parámetro a, β, ..n tendrá una ecuación:
a  f1 i , i 1....
  f 2  j ,  j 1....
....
N  f N  k ,  k 1....
C.L.V.P.
Método de los mínimos cuadrados

Este es un método muy usado en hidrología, no sólo para ajustar
funciones de distribución, sino también curvas de caudales en ríos
(relación h/Q), ecuaciones de regresión de correlaciones entre
estaciones de caudales, ajuste de curvas de intensidad–duración–
frecuencia de lluvias, etc. Por este método se calcula una línea de
regresión (en lo posible recta) para ajustar los datos graficados. La
línea que se obtiene puede no representar exactamente la
distribución teórica, pero, en general puede producir un ajuste igual
o mejor que el método de los momentos.
Basado en este método Chow (1951) propuso un método general de
ajuste de análisis de frecuencias hidrológicas, mediante un factor de
frecuencia.
El ajuste de una distribución se puede hacer, ya sea a una de las
conocidas distribuciones de frecuencia de probabilidad o a cualquier
otra curva empírica que la observación del gráfico de los valores de
la variable pueda sugerir. En el caso de una función:
C.L.V.P.

En el caso de una función:
y  f ( x;a ,  ,  ...)
Los datos deben ser ajustados mediante la mejor
estimación de los parámetros a, β, . El método
minimiza la suma de los desvíos al cuadrado de los
valores observados y los calculados, así:
N N 2
S    yi  y     yi  f xi ;a ,  ,...,  
2
1 1
C.L.V.P.

Donde: xi e yi son las coordenadas de los datos
observados y N el número de datos (tamaño de la
muestra). La línea dada por la función f(x, a, β,  ...)
debe también ser minimizada y por lo tanto, todas las
primeras derivadas parciales con respecto a a, β , 
deben ser cero: Por lo tanto:
N N
   yi  y     yi  y 
2 2
i 1
; i 1
 0; ...
a 
C.L.V.P.
De estas derivadas se obtienen n ecuaciones para
encontrar n parámetros. Como, en general se trata de
ajustar a una recta de la forma:
y a *x 
O en forma logarítmica, si es el caso, los parámetros a y
β se encuentran como:
N _ _
x y i i  N * x* y
a i 1
N _2
 i  N *x
x 2
i 1
_ _
C.L.V.P.
  y a x

Para el caso de una ecuación cuadrática de la forma:
y  a   * x   * x2
Se plantean tres ecuaciones para determinar los tres
parámetros a, b, c:
N N N
 i
y 
i 1
a * N   *  i
x   *  i
i 1
x 2
i 1
N N N N
 i i
x *
i 1
y  a *  i
x  
i 1
*  x   *  i
x
i 1
3 2
i
i 1
N N N N
C.L.V.P.  x *
i 1
y 2
i
i  a *  x 
i 1
 *2
i x   *  i
i 1
x 4 3
i
i 1
Método de Máxima Verosimilitud

Por este método se determinan los valores de los
parámetros en forma de obtener la función de
verosimilitud. Si se tiene una función de densidad de
probabilidad f(x; a; β ...) de una variable continua x con
los parámetros a, β... a ser estimados, el producto
infinito o función de verosimilitud de una muestra de N
valores de una variable continua x es:
N
L   f ( xi ;a ,  ...)
i 1
C.L.V.P.

Si la variable es discreta y la función de probabilidad
acumulada es: Pi (x; a, β) la función de verosimilitud es
el producto:
N
L1   Pi ( xi ;a ,  ...)
i 1
Como uno alcanza su máximo valor, para ciertos valores
de a, β,..., se aplican logaritmos; luego la ecuación es:
N N
LnL   ln  f xi ;a ,  ...   ln  f xi ;a ,  ...
i 1 i 1
C.L.V.P.

De sus derivadas parciales en a, β,...igualadas a cero, se
obtienen las funciones de máxima verosimilitud que
serán tantas ecuaciones como parámetros a determinar:
 ln( L)  ln( L)
 0;  0; ...
a 
El método da mejores resultados para muestras grandes

En este caso, provee la mejor estimación de los
parámetros, aunque su aplicación práctica resulta la más
compleja que otros métodos.
C.L.V.P.
TEST DE BONDAD DE AJUSTE
Una curva de frecuencia desarrollada a través de una

muestra de datos, se supone que es la mejor estimación
de la curva de frecuencia de la población.
La aplicación de los test de bondad de ajuste a
determinadas distribuciones, puede ayudar a seleccionar
aquella que mejor represente a la distribución de
frecuencia de la población. Si bien, se han mencionado
criterios generales, obtenidos de la experiencia
hidrológica para seleccionar una determinada
distribución de frecuencia, no existen verdaderos
acuerdos en este sentido y lo cierto es, como lo
establece el USWRC (1982), “ninguna distribución es la
mejor para todos los criterios, luego el juicio del
hidrólogo resulta fundamental”.
C.L.V.P.
Test de Ji-cuadrado (c2)
Este método se usa tanto para verificar distribuciones de
probabilidad, ya sean distribuciones continuas con grupos de datos
expresados como frecuencia absolutas de intervalos de clase o
como frecuencias absolutas en distribuciones discretas. Es un
método para métrico que se evalúa mediante la expresión:
N
 ( f  n * p ) 2

c   
2 i i

i 1  n * pi 
En esta ecuación n es el número de intervalos de clase para
variables discretas o el número de eventos para variables
continuas, fi son las frecuencias absolutas observadas de cada
evento (o de cada intervalo de clase) y pi es la probabilidad de los
eventos (o de los intervalos) calculados con la ecuación a verificar
p(x, α, β, γ...).
C.L.V.P.
Test de Kolmogorov-Smirnov (K-S)

El método Kolmogorov-Smirnov (K-S) se usa cuando no se verifican
parámetros de una distribución previa y se trabaja con una distribución
acumulada.
En este método se determina la máxima desviación entre la posición de
graficación experimental (Pxi) la distribución acumulada teórica (F(x)). Si
se tiene una muestra de n datos x1, x2, x3....xn en orden ascendente o
descendente y sus posiciones de graficación dadas por P(xi) = m/n+1, se
obtiene el gráfico de una preseleccionada distribución empírica. Luego,
F(x) el verdadero valor de la distribución teórica la máxima diferencia se
define como:
D0  max F ( x)  P( xi )
Donde Do, es el valor de la máxima desviación entre la curva experimental
y la teórica. En algunos casos, este valor puede corresponder a la cola de
la distribución donde el ajuste no es tan necesario.
C.L.V.P.

4 Probabilidad y Estadistica

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

4 Probabilidad y Estadistica

Cargado por

Copyright:

Formatos disponibles

PROBABILIDAD Y ESTADÍSTICA

Medidas de tendencia hacia un valor central de la

Medidas de tendencia hacia un valor central de la

Mediana (M): es el valor de la variable que deja con igual

Moda: es el valor de la variable que ocurre con

En hidrología se tienen frecuentemente muestras de

Desviación media (σM): Es la media aritmética del valor

Desviación estándar (σ): Es el parámetro de dispersión más

Covarianza. Cuando se analiza la varianza de dos (X, Y) ó

Coeficiente de variación: es el cociente entre la desviación

El coeficiente de asimetría (g): Es el tercer momento

DISTRIBUCIÓN DE VARIABLES DISCRETAS

La distribución discreta binomial de probabilidad se

DISTRIBUCIÓN DE VARIABLES CONTINUAS

La función de distribución de probabilidad es F(x)

DISTRIBUCIÓN DE VARIABLES CONTINUAS

DISTRIBUCIÓN DE VARIABLES CONTINUAS

DISTRIBUCIÓN DE VARIABLES CONTINUAS

DISTRIBUCIÓN DE VARIABLES CONTINUAS

Pero coeficiente de variación de x, es:

DISTRIBUCIÓN DE VARIABLES CONTINUAS

DISTRIBUCIÓN DE VARIABLES CONTINUAS

DISTRIBUCIÓN DE VARIABLES CONTINUAS

C.L.V.P. Distribución típica normal

DISTRIBUCIÓN LOGNORMAL DE DOS PARÁMETROS

DISTRIBUCIÓN LOGNORMAL DE DOS PARÁMETROS

N es el número de datos de la muestra.

DISTRIBUCIÓN LOGNORMAL DE DOS PARÁMETROS

DISTRIBUCIÓN LOGNORMAL DE DOS PARÁMETROS

DISTRIBUCIÓN LOGNORMAL DE DOS PARÁMETROS

DISTRIBUCIÓN LOGNORMAL DE TRES PARÁMETROS

DISTRIBUCIÓN LOGNORMAL DE TRES PARÁMETROS

DISTRIBUCIONES TIPO PEARSON

Donde a, b0, b1 y b2 son constantes que se deben

DISTRIBUCIÓN GAMMA DE UN PARÁMETRO

* xa 1Exp  x   0  x

DISTRIBUCIÓN GAMMA DE UN PARÁMETRO

DISTRIBUCIÓN GAMMA DE UN PARÁMETRO

DISTRIBUCIÓN GAMMA DE DOS PARÁMETROS

DISTRIBUCIÓN GAMMA DE DOS PARÁMETROS

DISTRIBUCIÓN GAMMA DE DOS PARÁMETROS

DISTRIBUCIÓN GAMMA DE DOS PARÁMETROS

Función de densidad de probabilidad de dos parámetros

DISTRIBUCIÓN PEARSON III (GAMMA DE TRES

DISTRIBUCIÓN LOG PEARSON III

DISTRIBUCIÓN LOG PEARSON III

Distribución General de Valores Extremos (GEV)

Distribución Tipo I (Gumbel)

La función de distribución queda:

C.L.V.P. F ( X  x)  exp  exp  y   e e y

Distribución Tipo I (Gumbel)

Donde γ es la constante de Euler igual a 0.57721 (Kreyszic,

Distribución Tipo I (Gumbel)

Distribución Tipo I (Gumbel)

Distribución Tipo I (Gumbel)

Valores de yn y σn en función de 90 0,56 1,20

200 0,57 1,24

Distribución Tipo I (Gumbel)

TR Probabilidad Variable Longitud del registro, N (años)

5 0.20 1.500 0.919 0.866 0.838 0.820 0.779 0.755 0.719

10 0.10 2.250 1.62 1.54 1.50 1.47 1.40 1.36 1.30

20 0.05 2.970 2.30 2.19 2.13 2.09 2.00 1.94 1.87

50 0.02 3.902 3.18 3.03 2.94 2.89 2.77 2.70 2.59

Distribución Tipo II (Cauchy o Frechet)