Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Analiza una serie de datos con el fin de concluir sobre el comportamiento de una
variable.
– Incluye la tabulación, representación y descripción de conjuntos de datos.
– A partir de ellos se puede organizar, simplificar y resumir información básica.
Estadística
Conceptos básicos
• Estadística inferencial
– Proporciona métodos para estimar las características de un grupo (población) basándose
en los datos de un conjunto pequeño (muestra).
• Población: Universo (conjunto) de todos los elementos que estamos estudiando, acerca de
los cuales intentamos sacar conclusiones.
• Variable: Una variable estadística es una propiedad que puede fluctuar y cuya variación
es susceptible de adoptar diferentes valores, los cuales pueden medirse u observarse.
• Dato: Son los valores cualitativos o cuantitativos mediante los cuales se miden las
características de los objetos, sucesos o fenómenos a estudiar.
Estadística
Conceptos básicos
Variable Aleatoria (va): Es una variable estadística cuyos valores están influenciados por el azar.
➢ Por convención, la va se representa con una letra mayúscula, mientras que el valor que
toma la va se representa con minúsculas. P (X<x)
• Si bien el enfoque bayesiano tiene mucho más sentido en términos físicos (la probabilidad de
que mañana llueva depende de la ocurrencia de lluvia hoy), el enfoque aleatorio ha
demostrado ser un enfoque mucho más simple e igualmente útil en la práctica.
NA
P(A)= N
Valor Probabilidad
• Evaluar la probabilidad de que un valor de Q o P sea mayor o menor a un
valor determinado.
Probabilidad Valor:
• Evaluar qué valor de Q o P será superado un determinado % de los años.
Cuando las observaciones de una muestra están idénticamente distribuidas, i.e., cada
valor observado proviene de la misma distribución de probabilidad (conocida o no), estas
se pueden ordenar para construir un histograma de frecuencias relativas.
𝑁𝐶 = 1.33 ∙ 𝑙𝑛 𝑁 + 1 (Yevjevich)
𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛
∆𝑥 =
𝑁𝐶 − 1
5. Calcular los límites de clase de cada uno de los intervalos. Con el paso 4 se
consigue que Xmax y Xmin coincidan con la marca de clase de la primera y última
clase. Luego, los límites superior e inferior de dichas clases se calculan como:
∆𝑥
𝐿𝐶𝐼1 = 𝑥𝑚𝑖𝑛 −
2
∆𝑥
𝐿𝐶𝑆1 = 𝑥𝑚𝑖𝑛 +
2
Los límites siguientes se obtienen sumando la amplitud ∆𝑥 al límite de clase
anterior.
𝑛𝑖
𝑓𝑠 𝑥𝑖 =
𝑛
𝐹𝑠 𝑥𝑖 = 𝑓𝑠 𝑥𝑖
𝑗=1
Se conoce como
distribución normal o
campana de Gauss.
Hidrología estadística
Distribuciones
F(x)=0.88
F(x)=0.88
Histograma de Función de
frecuencias densidad
relativas
Función de Función de
frecuencias distribución de
acumulada probabilidad
Hidrología estadística
Distribuciones
• Las estadísticas son números que resumen algunas de las características más importantes de
la muestra a partir de la cual son calculados.
• Descriptores comúnmente utilizados para mostrar las propiedades estadísticas de una va.
(2) Dispersión
(3) Asimetría
Momentos
(4) Curtosis estadísticos
Son indicadores genéricos
de una distribución.
24
Hidrología estadística
Distribuciones
• Parámetros de una función de distribución:
Parámetros de tendencia central
en una muestra.
𝑛
∙ σ 𝑥𝑖 − 𝑥ҧ
𝑛−1 ∙ 𝑛−2
𝛾=
𝑆𝐷 3
Si 𝛾= 0 la distribución es simétrica.
Si 𝛾 > 0 la distribución tiene sesgo (“cola”) hacia el lado derecho.
Si 𝛾 < 0 la distribución tiene sesgo (“cola”) hacia el lado izquierdo.
Hidrología estadística
Distribuciones
• Parámetros de una función de distribución:
30
Hidrología estadística
Distribuciones
Moment Measure of Definition Continuous Variable Discrete Variable Sample Estimator
Central Mean, Expected value μx = xk p( xk ) x = xi / n
First
Location E(X)=x
x = x f ( x) dx
−
x all x's
x x all x ' s
−
x = Var ( X ) s=
n −1
Coefficient of variation, x x = x x x = x x
Cv = s x
μ3 = ( xk − μx )3 px ( xk )
( )
n
xi − x
3
Skewness
μ3 = ( x − μx ) f x ( x) dx
3
m3 =
Third Asymmetry −
all x's (n − 1)(n − 2)
Fourth Peakedness
Kurtosis, x x = 4 / x4 k = m4 / s4
x = 4 / x 4
Excess coefficient, x x = x − x = x −
31
Hidrología estadística
Análisis de frecuencia
1
𝑃 𝑋≥𝑥 =
𝑇
1
∴𝑃 𝑋 <𝑥 =1−
𝑇
Hidrología estadística
Análisis de frecuencia
• Riesgo (R) → Probabilidad de falla o excedencia de una condición de diseño.
1
– P = Probabilidad de que sea superado un caudal Q.
𝑇
1
– Por lo tanto, la probabilidad de que no sea superado será 𝑃ത = 1 − 𝑃 = 1 −
𝑇
– Luego, la probabilidad de que no falle en N años será 𝑃𝑁𝐹 ∙ 𝑃𝑁𝐹 ∙ 𝑃𝑁𝐹 … 𝑃𝑁𝐹 N
𝑛 1 𝑛
veces. Es decir 𝑃𝑁𝐹 = 𝑃𝑁𝐹 .
– California 𝑚Τ
𝑛
3𝑚−1
– Tukey
3𝑛+1
3) Amplitud
𝑋𝑚𝑎𝑥−𝑋𝑚𝑖𝑛
∆x= = 462.3
𝑁𝑐−1
.
Hidrología estadística
Distribuciones
Ejercicio en clases: solución
Dividir Frecuencia
Promedio de cada absoluta por N
Xmin +∆x/2 intervalo
• Por ejemplo, si se tiene una muestra de 30 años de datos de caudal máximo instantáneo (serie de
máximos anuales), y estos se ordenan de menor a mayor, el menor dato ha sido igualado o
superado 30 veces en 30 años, por lo que su período de retorno es 1 año (30 años/30 veces
superado).
• De manera análoga, el dato número 28 ha sido igualado o superado 3 veces en 30 años, por lo que
dicho valor tiene asociado, según la muestra utilizada, un período de retorno de 10 años (30/3).
• Así, este análisis se podría extender hasta un máximo de 30 años de período de retorno que
correspondería al máximo valor observado en la serie. Pero, ¿qué sucede si se quiere estimar el
caudal de 100 años de período de retorno?, o ¿cómo podría estimar aquel caudal que tiene
probabilidad de ocurrencia de 99%?
Hidrología estadística
Distribuciones de probabilidad
• Para abordar este problema, se ajustan funciones de
probabilidad teóricas a datos muestrales.
Distribuciones
teóricas
comúnmente
utilizadas en
hidrología
Hidrología estadística
Distribuciones de probabilidad
• Para abordar este problema, se ajustan funciones de
probabilidad teóricas, a datos muestrales.
Distribuciones
teóricas
comúnmente
utilizadas en
hidrología
Hidrología estadística
Distribuciones de probabilidad
• ¿Cómo utilizar una función teórica en un problema en particular en
hidrología?
REGISTRO DE DATOS
ESTIMACIÓN DE PARÁMETROS
NO SÍ
AJUSTE OK
Distribución Normal
La función Normal es el modelo más utilizado y con mayor importancia en el campo de la
estadística. Sin embargo, su uso es muy limitado en hidrología, dado que las variables
raramente se comportan de esta forma.
Linsley et al. (1988) señalan que el uso de esta función, en términos hidrológicos, debe
reducirse a zonas húmedas donde el valor medio es alto, no siendo recomendable para
valores extremos.
Donde
• 𝑋ത es la media de los datos muestrales. También llamado parámetro de posición.
• S es la desviación estándar o parámetro de escala.
Hidrología estadística
Distribuciones de probabilidad
Distribución Log-Normal
En esta función de logaritmos naturales de la variable aleatoria se distribuyen normal. La función
de densidad de probabilidad es:
Hidrología estadística
Distribuciones de probabilidad
Distribución Log-Normal – parámetros
Los logaritmos de los datos se distribuyen normal.
“Si la variable aleatoria X tiene una distribución Log-Normal, entonces la variable aleatoria Y
= Log(X) se distribuye normal”.
Obs: Por lo tanto, se obtienen los logaritmos de los datos, pero se trabaja con distribución
normal, y luego se vuele a la variable original.
Hidrología estadística
Distribuciones de probabilidad
Distribución Gamma
La función de distribución de probabilidad es:
−𝑥
𝑥 𝛾−1
𝑥 𝑒𝛽
𝐹 𝑥 =න 𝑑𝑥
0 𝛽𝛾 𝑟(𝛾)
• La función de densidad:
−𝑥
𝛾−1
𝑥 𝑒𝛽
𝑓 𝑥 =
𝛽𝛾 𝑟(𝛾)
ß: Parámetro de escala
𝛾: Parámetro de forma
r(𝛾): función Gamma
Hidrología estadística
Distribuciones de probabilidad
Distribución Gamma – Parámetros
Hidrología estadística
Distribuciones de probabilidad
Distribución Gamma de tres parámetros – Distribución Pearson
−(𝑥−𝑥0 )
𝑥 𝛾−1
(𝑥 − 𝑥0 ) 𝑒 𝛽
𝐹 𝑥 =න 𝑑𝑥
𝑋0 𝛽𝛾 𝑟(𝛾)
4 𝐶𝑠 ∙ 𝑆 2∙𝑆
𝛾= 2 𝛽= 𝑥0 = 𝑋ത −
𝐶𝑠 2 𝐶𝑠
𝑁 2 ∙ 𝑀3
𝐶𝑠 =
(𝑁 − 1)(𝑁 − 2) ∙ 𝑆 2
ത 3
(𝑥 − 𝑋)
𝑀3 =
𝑁
Hidrología estadística
Distribuciones de probabilidad
Distribución Gumbel
Corresponde a una función de valores extremos. También se denomina FVE Tipo I o de
Fisher.
Hidrología estadística
Distribuciones de probabilidad
6
𝛼= ∙ 𝑆 = 𝟎. 𝟕𝟕𝟗𝟔𝟗𝟔𝟖𝟎𝟏 ∙ 𝑺
𝜋
𝜇 = 𝑋ത − 0.57721566490153286061 ∙ 𝛼 = 𝑿
ഥ − 𝟎. 𝟒𝟓 ∙ 𝑺
La función Gumbel se utiliza generalmente para trabajar con valores extremos como
caudales y precipitaciones máximas o mínimas anuales.
Hidrología estadística
Pruebas de bondad de ajuste
• Las pruebas de bondad de ajuste se utilizan para comprobar gráfica y estadísticamente si la
frecuencia empírica de la serie analizada se ajusta a una determinada función de
probabilidades teórica (seleccionada a priori), cuyos parámetros que caracterizan dicha
distribución son estimados en bases a valores muestrales.
• Técnicamente, las pruebas estadísticas tienen como objetivo medir la certidumbre que se
obtiene al hacer una hipótesis estadística sobre una población, es decir, validar o clasificar el
hecho de asumir que una variable aleatoria (muestra) se distribuye de acuerdo a una función
de probabilidades teórica (población).
0.25 0.25
0.2 0.2
0.15 0.15
0.1 0.1
0 0
0 1000 2000 3000 4000 5000 6000 0 1000 2000 3000 4000 5000 6000
(a) Normal (b) EV o Gumbel
Hidrología estadística
Pruebas de bondad de ajuste
1.- AJUSTE GRÁFICO (curva de frecuencias acumuladas)
𝑘 2
𝜃𝑖 − 𝑒𝑖
𝜒𝑐2 =
𝑒𝑖
𝑖=1
Donde σ𝑘𝑖=1 𝜃𝑖 = σ𝑘𝑖=1 𝑒𝑖 = 𝑁
• El valor obtenido de 𝜒𝑐2 refleja la suma de las diferencias entre las frecuencias relativas del
histograma (muestra) con los valores de la función de densidad teórica de los diferentes
intervalos de clase. Esto también puede ser interpretado como la suma de las diferencias
entre las probabilidades de ocurrencia (probabilidades acumuladas) de los diferentes
intervalos de clase.
• Como criterio de decisión se compara el valor obtenido con un valor límite 𝜒𝑡2 que depende
de la distribución Chi-Cuadrado, del nivel de significancia (α) elegido y de los grados de
libertad (gl).
• Si 𝜒𝑐2 ≤ 𝜒𝑡2 se acepta la hipótesis nula, y por lo tanto se asume que los datos muestrales
siguen la función de distribución teórica pre-seleccionada. De lo contrario se acepta la
hipótesis alternativa (los datos no siguen la función teórica pre-seleccionada).
26.7 8.7 44.7 4 0.11 0.105 106.8 16115.6 0.0292 0.1453 0.1162 4.6 5 0.20
62.7 44.7 80.7 15 0.39 0.500 940.5 11322.0 0.1453 0.4129 0.2676 10.2 10 2.50
98.7 80.7 116.7 9 0.24 0.737 888.3 654.3 0.4129 0.7312 0.3183 12.1 12 0.75
134.7 116.7 152.7 7 0.18 0.921 942.9 13878.1 0.7312 0.9269 0.1957 7.5 8 0.13
170.7 152.7 188.7 2 0.05 0.974 341.4 12969.0 0.9269 0.9890 0.0621 2.4 2 0.00
206.7 188.7 224.7 1 0.03 1.000 206.7 13578.4 0.9890 0.9991 0.0101 0.4 1 0.00
Total 38 1 90.2 43.0 0.9700 Suma 3.58
Chi teorica 7.8147279
• Ventajas y limitaciones:
• El K-S test consiste comparar las diferencias que existen entre la probabilidad acumulada
empírica (de los datos de la muestra) con la probabilidad acumulada teórica de la función
pre-seleccionada. Utiliza como valor de comparación la máxima diferencia en valor absoluto
de la probabilidad empírica y teórica, y luego dicho valor se compara con un valor límite que
proviene de la función K-S. La expresión que define dicha diferencia es la siguiente.
𝛥 = 𝑚𝑎𝑥 𝐹 𝑥 − 𝑃(𝑥)
𝑀
𝑃 𝑥 =
𝑁+1
• Luego es necesario conocer el valor que tomaría la función teórica en el mismo valor x, y que
caracteriza mediante los parámetros media, desviación estándar, coeficiente de asimetría,
etc. Valores obtenidos de la muestra. Con esto se asume que la distribución teórica tiene los
mismos parámetros que la muestra de datos utilizada.
• Conocido el valor de 𝛥, es necesario compararlo con un valor límite (𝛥𝑙𝑖𝑚 ) que depende de la
función K-S, del tamaño de la muestra y del nivel de significancia (α).
• Si 𝛥 < 𝛥𝑙𝑖𝑚 se acepta la hipótesis nula con el nivel de significancia α. Es decir se acepta que
los datos muestrales siguen la función de distribución preseleccionada. De lo contrario se
acepta la hipótesis alternativa (los datos no siguen la función de distribución
preseleccionada) y por lo tanto se debe probar con una función teórica diferente.
Hidrología estadística
Pruebas de bondad de ajuste
3.- Prueba de Kolmogorov-Smirnov (K-S test)
• Ventajas y limitaciones:
– No requiere un conocimiento a priori de la función de distribución teórica.
– No requiere hacer intervalos de clase, lo que simplifica su utilización. Se aplica sobre la
cdf y no sobre la pdf como el caso de Chi-cuadrado.
– Es válido para cualquier función de distribución.
Hidrología estadística
Pruebas de bondad de ajuste
3.- Prueba de Kolmogorov-Smirnov (K-S test)
Prob. Prob.
Diferencia
Datos Orden Weibull Teórica
(F(x)-P(x))
(Muestra) (Normal)
26.7 1 0.026 0.063 0.037
32.9 2 0.051 0.083 0.031
36.3 3 0.077 0.095 0.018
40.3 4 0.103 0.112 0.010 Dmáx 0.109
48.5 5 0.128 0.153 0.025 Delta lim 0.221 Para n = 38,α = 0.05
48.8 6 0.154 0.155 0.001
52.3 7 0.179 0.175 0.005
52.5
57.4
8
9
0.205
0.231
0.176
0.207
0.029
0.024
Dmax < Dlim Se acepta la hipótesis nula. Los datos se
58.8 10 0.256 0.217 0.040 distribuyen normal.
59.6 11 0.282 0.222 0.060
63.4 12 0.308 0.250 0.058
64.2 13 0.333 0.256 0.078
67.5 14 0.359 0.281 0.078
70 15 0.385 0.301 0.084
72.5 16 0.410 0.322 0.089
76.3 17 0.436 0.354 0.082
76.9 18 0.462 0.359 0.102
79 19 0.487 0.378 0.109
88 20 0.513 0.460 0.053
92.8 21 0.538 0.504 0.034
95.6 22 0.564 0.531 0.034
97.2 23 0.590 0.545 0.044
109.2 24 0.615 0.653 0.038
110.1 25 0.641 0.661 0.020
110.2 26 0.667 0.662 0.005
112.2 27 0.692 0.679 0.013
114.5 28 0.718 0.698 0.020
121.3 29 0.744 0.751 0.007
122.4 30 0.769 0.759 0.010
137.1 31 0.795 0.852 0.057
142.4 32 0.821 0.879 0.058
144.7 33 0.846 0.889 0.043
144.9 34 0.872 0.890 0.019
148.3 35 0.897 0.905 0.007
162.1 36 0.923 0.948 0.025
165.6 37 0.949 0.957 0.008
205.8 38 0.974 0.996 0.022
Hidrología estadística
Pruebas de bondad de ajuste
3.- Prueba de Kolmogorov-Smirnov (K-S test)
Curvas de frecuencias acumuladas (muestral) y de distribución acumulada (teórica, normal).
D Indica la diferencia que busca medir la prueba K-S.
Hidrología estadística
Aplicación de modelos probabilísticos
Curvas de Variación estacional
• Proporcionan información sobre la distribución de los valores hidrológicos, respecto al
tiempo y la probabilidad de que dichos eventos ocurran.
Pluvial
Deshielo
Estiaje
Hidrología estadística
Aplicación de modelos probabilísticos
Curva de Duración General
• Se construye asociando una probabilidad a valores registrados de caudal en un río.
• Indica el porcentaje del tiempo durante el cual los caudales han sido igualados o
excedido. P(X>=x)
• Se utilizan registros diarios o mensuales.
Hidrología estadística
Aplicación de modelos probabilísticos
Ejercicio
Para la serie de datos calcule utilizando la función de distribución Gumbel.
Año Q (m3/s)
1982 892
1983 744
1984 1026
1985 898
1986 814
1987 1123
1988 782
1989 984
1990 899
1991 771