Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadistica
Estadistica
Por P(x = a) se denota la probabilidad de que un evento asuma el valor a; similarmente P(a
x b) denota la probabilidad de que un evento se encuentre en el intervalo (a,b). Si
conocemos la probabilidad P(a x b) para todos los valores de a y b, se dice que
conocemos la Distribución de Probabilidades de la variable x.
Ejemplo
Se tienen las probabilidades de que haya 1, 2, 3, ... etc, días nublados por semana en un
determinado lugar, con ellos calcule la distribución de probabilidades
x P(x) F(x)
0 0.05 0.05
1 0.15 0.20
2 0.25 0.45
3 0.20 0.65
4 0.15 0.80
5 0.10 0.90
6 0.08 0.98
7 0.02 1.00
Total 1.0
0.30 1.20
0.25 1.00
0.20 0.80
F(x)
f(x)
0.15 0.60
0.10 0.40
0.05 0.20
0.00 0.00
0 1 2 3 4 5 6 7 0 2 4 6 8
# dias nublados # dias nublados
1
x P(x) F(x)
1 0.05 0.05
2 0.10 0.15
3 0.15 0.30
4 0.20 0.50
5 0.10 0.60
6 0.10 0.70
7 0.15 0.85
8 0.10 0.95
9 0.05 1.00
Total 1.00
0.25 1.20
0.20 1.00
0.80
0.15
F(x)
f(x)
0.60
0.10
0.40
0.05 0.20
0.00 0.00
1 2 3 4 5 6 7 8 9 0 2 4 6 8 10
Qmáx instántaneo *10² (m³/s) Qmáx instántaneo *10² (m³/s)
0.35 1.20
0.30 1.00
0.25
0.80
0.20
F(x)
f(x)
0.60
0.15
0.10 0.40
0.05 0.20
0.00 0.00
1 2 3 4 5 6 7 8 9 10 0 5 10 15
Qmáx instántaneo *10² (m³/s) Qmáx instántaneo *10² (m³/s)
2
Lo que implica que las probabilidades se definen solo como AREAS bajo la función de
densidad de probabilidad (FDP) entre límites finitos.
Las propiedades de las distribuciones pueden ser definidas completamente en términos de los
momentos. Los momentos en estadística son similares a los momentos en física (rotación
respecto al origen)
para la variable continua
r
M x r f ( x ) dx
n
M r x r f ( x) para la variable discreta
j 1
n
M r ( x ) r f ( x) para la variable discreta
j 1
1.2.1 Media :
es el valor esperado de la variable misma . Primer momento respecto a la origen. Muestra
la tendencia central de la distribución
x f ( x ) dx
3
el valor estimado de la varianza a partir de la muestra es
1 n
s2
n 1 i 1
( xi x) 2
en el cual el divisor es n-1 en lugar de n para asegurar que la estadística de la muestra no sea
sesgada, es decir, que no tenga una tendencia, en promedio, a ser mayor o menor que el
valor verdadero. Las unidades de la varianza son la media al cuadrado, la desviación
estándar es una medida de la variabilidad que tiene las mismas dimensiones que la media y
simplemente es la raíz cuadrada de la varianza, se estima por s. El significado de la
desviación estándar se ilustra en la siguiente figura
1.00
0.80
0.60
f(x)
0.40
0.20
0.00
0 2 4 6 8 10
x
0.50 1.00 1.30 2.00
Efectos de la función de densidad de probabilidad causados por cambios en la desviación
estándar.
Coeficiente de variación Cv es una medida adimensional de la variabilidad su estimado
s
es Cv
x
4
n
n ( x x ) 3
Un estimativo del coeficiente de asimetría está dado por
Cs i 1
(n 1)(n 2) * s 3
Ejemplo
Frecuencia Frecuencia
Intervalo (mm) Xi medio x f(x)
absoluta relativa
100 110 105 10 0.1 10.5
110 120 115 16 0.16 18.4
120 130 125 9 0.09 11.25
130 140 135 10 0.1 13.5
140 150 145 20 0.2 29
150 160 155 15 0.15 23.25
160 170 165 20 0.2 33
Total=100 x = 138.9
2 ANALISIS DE FRECUENCIA
X T KT
X T x KT s
5
Para una distribución dada, puede determinarse una relación entre K y el período de retorno
Tr. Esta relación puede expresarse en términos matemáticos o por medio del uso de una
tabla.
1 ( x ) 2
1
f ( x)
exp 2 2
x
2
Los dos parámetros de la distribución son la media y desviación estándar para los cuales
x (media) y s (desviación estándar) son derivados de los datos.
1 n
x xi
n i 1
1
1 n 2
s
n 1 i 1
( xi x) 2
6
3.1.3 Factor de frecuencia:
xT
KT
X Tr t(1 ) S e
Esta distribución es muy usada para el calculo de valores extremos por ejemplo Qmax,
Qmínimos, Pmax, Pmínima (excelentes resultados en Antioquia). Tiene la ventaja que X>0 y
que la transformación Log tiende a reducir la asimetría positiva ya que al sacar logaritmos se
reducen en mayor proporción los datos mayores que los menores.
Limitaciones: tiene solamente dos parámetros, y requiere que los logaritmos de la variables
estén centrados en la media
1 ( y y )
1 2 y2
f ( x) exp x0
x 2
y = ln x
donde, y : media de los logaritmos de la población (parámetro escalar), estimado y
y : Desviación estándar de los logaritmos de la población, estimado sy.
7
3.2.2 Estimación de parámetros:
1 n
y ln( xi )
n i 1
1
1 n 2
sy
n 1 i 1
(ln( xi ) y ) 2
Ln(XTr) = xTr+KSy
de donde,
XTr = eln (xTr)
con K con variable normal estandarizada para el Tr dado, xy media de los logaritmos y Sy es
la desviación estándar de los logaritmos.
1
ln(1 Cv 2 )
ExpK T * ( Ln(1 Cv 2 )) 2 1
2
Kt
Cv
s
K es la variable normal estandarizada para el Tr dado, Cv es el coeficiente de variación,
x
x media de los datos originales y s desviación estándar de los datos originales.
En el campo transformado.
Ln ( X Tr ) t (1 ) ST
8
1
( S y ) K 2
2
Se 1 T
n 2
Solución:
n=30
x= 15 m3/s xy=2.655
s = 5 m3/s sy = 0.324
En el campo original
1
ln(1 Cv 2 )
Exp K * ( Ln(1 Cv ))
2 2
1
2
Kt
Cv
s
Cv = 5/15 = 0.33
x
1
ln(1 0.332 )
Exp 2.33 * ( Ln(1 0.332 )) 2 1
2
KT
0.33
KT = 3.06
QTr = 15 + 5 * 3.028
QTr = 30.14 m3/s
LnQTr100 = 3.40992
9
QTr100 = Exp (3.40992)
Limites de confianza
Ln (QTr) t(1-) Se
1
( S y ) K
2
2
Se 1 T
n 2
1
2.332 2
1
2
= 1.93
1.93 0.324
Se 0.11
30
3.41 0.18095
[3.22905 3.59095]
[e3.22905 e3.59095]
Ln(42.5) = 3.75
t = (3.75 - 2.655)/0.324
10
Una familia importante de distribuciones usadas en el análisis de frecuencia hidrológico es la
distribución general de valores extremos, la cual ha sido ampliamente utilizada para
representar el comportamiento de crecientes y sequías (máximos y mínimos).
1 (x ) ( x )
f ( x) exp exp
( x )
F ( x) f ( x)dx exp exp
6
s
x 0.5772
6 Tr
KT 0.5772 ln ln
T 1
r
Donde Tr es el periodo de retorno. Para la distribución Gumbel se tiene que el caudal para
un período de retorno de 2.33 años es igual a la media de los caudales máximos.
Xt t(1-) Se
s
Se
n
11
1
2 2
[1 1.1396KT 1.1KT ]
QTr100 = x + KT s
6
KT 0.577 ln[ln 100 ln(99)]
KT = 3.14
QTr100 = 15 + 3.14*5
QTr100 = 30.7 m3/s
Intervalos de confianza
[1 11396
. . ) 11
(314 . (314
. ) ] 2 2
= 3.93
(3.93) (5)
Se
30
Se 3.58 m 3 / s
Xt t(1-) Se
Esta distribución ha sido una de las mas utilizadas en hidrología. Como la mayoría de las
variables hidrológicas son sesgadas, la función Gamma se utiliza para ajustar la distribución
de frecuencia de variables tales como crecientes máximas anuales, Caudales mínimos,
12
Volúmenes de flujo anuales y estacionales, valores de precipitaciones extremas y volúmenes
de lluvia de corta duración. La función de distribución Gamma tiene dos o tres parámetros.
donde,
x0 x para 0
x x0 para 0
2
2 Cs
ˆ ; ˆ s ; xˆ 0 x ˆ
Cs 2
Xt t(1-) Se
S
Se
n
13
Donde S es la desviación estándar de la muestra, n es el número de datos y se encuentra
tabulado en función de Cs y Tr.
QTr100 = X+ SK
Intervalos de confianza
Xt t(1-) Se
S
Se
n
( 3311) (8.4922)
Se
30
Se = 5133.56 pie3/s
Si los logaritmos Y de una variable aleatoria X se ajustan a una distribución Pearson tipo III,
se dice que la variable aleatoria X se ajusta a una distribución Log Pearson Tipo III. Esta
distribución es ampliamente usada en el mundo para el análisis de frecuencia de Caudales
14
máximos. Esta se trabaja igual que para la Pearson Tipo III pero con X y y Sy como la media
y desviación estándar de los logaritmos de la variable original X.
donde,
y0 y para 0
y y0 para 0
ln(YTr ) x y K s y
2 3 4 5
Cs 1 3 Cs Cs Cs 1 Cs
K z ( z 2 1) ( z 6 z ) ( z 1)
2
z
6 3 6 6 6 3 6
donde z es la variable normal estandarizada
Xt t(1-) Se
15
Sy
Se
n
4 AJUSTE DE DISTRIBUCIONES
Para la modelación de caudales máximos se utilizan, entre otras, las distribuciones Log -
Normal, Gumbel y Log-Gumbel principalmente. Para seleccionar la distribución de
probabilidades de la serie histórica se deben tener en cuenta algunas consideraciones.
Para ajustar distribuciones de tres parámetros (Log Normal III, Log Pearson) se
requiere estimar el coeficiente de asimetría de la distribución; para ello es necesario
disponer de una serie con longitud de registros larga, mayor de 50 años, (Kite,
1988). Las distribuciones de dos parámetros son usualmente preferidas cuando se
dispone de pocos datos, porque reducen la varianza de la muestra, (Ashkar, et al.
1994).
Kite (1988) y Mamdouh (1993) afirman que no existe consistencia sobre cual es la
distribución que mejor se ajusta a los caudales máximos y recomiendan seleccionar el
mejor ajuste a criterio del modelador con la prueba de ajuste gráfico o basado en el
comportamiento de las pruebas estadísticas de bondad del ajuste (por ejemplo Chi
Cuadrado, Smirnov-Kolmogorov, Cramer-Von Mises) en las que se calcula un
1
Aunque no existe una definición generalmente aceptada, se puede entender como valores extremos, muy
superiores a los demás registrados (Ashkar, et al. 1994).
16
estimador y se compara con un valor tabulado para determinar si el ajuste es
adecuado o no. En la prueba de ajuste gráfica se dibujan los valores registrados en la
serie contra la distribución teórica de probabilidades y de manera visual (subjetiva) se
determina si el ajuste es adecuado o no.
El ajuste a distribuciones se puede hacer de dos técnicas, con el factor de frecuencia como
se refirió en el numeral 2 o hallando la distribución empírica de los datos muestrales, por el
método de Plotting Position.
m
California P
n
m
Weibull P
n 1
2m 1
Hazen P
2n
La expresión más utilizada es la Weibull. Con las anteriores expresiones se halla lo que se
conoce como la distribución empírica de una muestra, esta luego se puede ajustar a una de
las distribuciones teóricas presentadas anteriormente. Los resultados pueden ser dibujados
17
en el papel de probabilidad; este es diseñado para que los datos se ajusten a una línea recta y
se puedan comparar los datos muestrales con la distribución teórica (línea recta).
Para determinar que tan adecuado es el ajuste de los datos a una distribución de
probabilidades se han propuesto una serie de pruebas estadísticas que determinan si es
adecuado el ajuste. Estos son análisis estadísticos y como tal se deben entender, es decir, no
se puede ignorar el significado físico de los ajustes.
La prueba requiere que el valor Dn calculado con la expresión anterior sea menor que el
valor tabulado Dn para un nivel de probabilidad requerido.
Una medida de las discrepancia entre las frecuencias observadas (fo) y las frecuencias
calculadas (fc) por medio de una distribución teórica esta dada por el estadístico χ²
k
( f f )2
2 o c en donde f o f c
i 1 fc
si el estadístico χ²=0 significa que lae distribuciones teórica y empírica ajustan exactamente,
mientras que si el estadístico χ²>0, ellas difieren. La distribución del estadístico χ² se puede
asimilar a una distribución Chi-cuadrado con (k-n-1) grados de libertad, donde k es el
número de intervalos y n es el número de los parámetros de la distribución teórica. La
función χ² se encuentra tabulada. Supongase que una hipótesis Ho es aceptar que una
distribución empírica se ajusta a una distribución Normal. Si el valor calculado de χ² por la
ecuación anterior es mayor que algún valor crítico de χ², con niveles de significancia de
0.05 y 0.01 (el nivel de confianza es 1-) se puede decir que las frecuencias observadas
difieren significativamente de las frecuencias esperadas (o calculadas) y entonces la
hipótesis Ho se rechaza, si ocurre lo contrario entonces se acepta.
18
19