Documentos de Académico
Documentos de Profesional
Documentos de Cultura
de México
Facultad de Ingeniería
División de ingeniería civil y geomática
Grupo : 01
Integrantes:
Semestre: 2023-2
Introducción
Las estaciones hidrométricas son puntos establecidos en los que se mide la cantidad
de agua disponible en cuerpos de agua originados por la lluvia y los escurrimientos,
como lo son ríos, arroyos, lagunas o embalses, dichas estaciones pueden estar
equipadas con regletas graduadas, sensores de medición, aforadores, entre otros.
Para las estaciones hidrométricas el personal capacitado se encarga de registrar los
niveles de agua en horas preestablecidas, durante una tormenta o el desfogue de una
presa. Al conocer la cantidad y la calidad de los recursos hídricos se realiza una mejor
distribución para el abastecimiento del agua potable municipal y la que se emplea para
la industria, la generación de energía hidroeléctrica e irrigación de los campos, entre
otras actividades.
Una cuenca hidrográfica es una zona de la superficie terrestre en donde las gotas de
lluvia que caen sobre ella tienden a ser drenadas por el sistema de corrientes hacia un
punto en común llamado punto de salida de la cuenca. Los límites de una cuenca están
constituidos naturalmente por lo que se conoce como “parteaguas” o “divisorias de
agua”, es decir, son las líneas imaginarias que unen las crestas de las elevaciones del
terreno, por cuyas laderas escurre el agua, hacia el cauce principal de salida de la
propia cuenca o hacia su centro, en caso de ser cerrada.
Muestra de estudio
Gastos máximos de las estaciones hidrométricas 30151 y 30140 correspondientes al
año 1965 hasta el año 1993.
Interpolar y extrapolar
Por diferentes problemas que se presentan en el proceso de tomar mediciones en las
estaciones hidrométricas es que en la muestra que se tomó de la estación 30140 no
existen datos para su estudio en los meses de septiembre, octubre, noviembre y
diciembre; por ello, es que se recurre a métodos de interpolación y extrapolación, es
decir, métodos que mediante valores de puntos conocidos obtener valores en puntos
desconocidos que se encuentren dentro o fuera de la muestra de análisis. En este caso
los puntos que conocemos son los de la estación 30151 y son estos los que nos serán
la base para obtener los valores que nos faltan.
Desarrollo
𝑖
Frecuencia acumulada (F): 𝐹𝑖 = ∑ 𝑓𝑘
𝑘=1
𝐹
Frecuencia relativa acumulada (F*): 𝐹 *= 𝑛
Clase Límites de clase Fronteras de Marcas frecuencia Frecuencia frecuencia Frecuencia acumulada relativa,
(EXCLUYENTE) clase de clase, , fi acumulada, relativa, fi* Fi*
xi Fi
1 534 704 533.5 704.5 619 6 6 0.206896552 0.206896552
Descripciones numéricas
Las descripciones numéricas son de tendencia central, dispersión y de forma.
Media aritmética(𝑥), que se obtiene cuando se suman todos los datos de un análisis
estadístico y se dividen por la cantidad total de datos.
𝑘 𝑛
(𝑥) : 𝑥=
1
𝑛
𝑗=1
( )
∑ 𝑥𝑗𝑓𝑗 DA y 𝑥=
1
𝑛 ( )
∑ 𝑥𝑖 DNA
𝑖=1
𝐺 =
𝑛 𝑘
𝑖=1 (𝑥𝑖) DNA y 𝐺=
𝑛 𝑘
𝑗=1 (𝑥 ) DA
𝑓𝑗
𝑗
𝑛 𝑛
Media armónica (H): 𝐻= 𝑛 DNA y 𝐻= 𝑘 DNA
𝑖=1
∑ ( ) 1
𝑥𝑖
∑
𝑗=1
( ) 𝑓𝑗
𝑥𝑗
Mediana: 𝑥 = 𝑥 ( ) DNA
𝑛+1
2
∆1
Moda: Para DNA la muestra es a modal y 𝑥𝑚𝑜 = 𝐿𝑅 𝑖𝑛𝑓 + ∆1+∆2
𝑐 DA
{𝑥1:𝑥𝑖≤𝐶𝑝} {𝑥1:𝑥𝑖>𝐶𝑝}
Cuantiles (Cp, C(p)): 𝑛
≥𝑝 y 𝑛
≥1 − 𝑝 DNA
En la tabla anterior se muestra que los gastos promedios por año por la tanto se puede
tener un gasto estimado dado que el error es bajo, la probabilidad es bastante lógica.
Considerando que el análisis de los a través del tiempo muestra que los gastos
máximos prácticamente siempre se presentan
( )
Rango (R): 𝑅 = 𝑚𝑎𝑥 𝑥𝑖 − 𝑚𝑖𝑛 𝑥𝑖 ( ) DNA y 𝑅 = 𝐿2𝑘 − 𝐿1 DA
𝑘 𝑘
∑ |||𝑥𝑖 − 𝑥||| ∑ |||𝑥𝑗 − 𝑥|||𝑓𝑗
1 1
Desviación media (DM): 𝐷𝑀 = 𝑛
DNA y 𝐷𝑀 = 𝑛
DA
𝑖=1 𝑗=1
2 2
Varianza (S2):
2
𝑆𝑛−1 =
1
𝑛−1 (
Σ 𝑥𝑖 − 𝑥 ) DNA y
2
𝑆𝑛−1 =
1
𝑛−1 (
Σ 𝑥𝑗 − 𝑥 𝑓𝑗 ) DA
2
Desviación estándar (típica): 𝑆𝑛 = 𝑆𝑛
𝑆
Coeficiente de variación (CV): 𝐶𝑉 =
|𝑥|
Rango intercuartílico: 𝑅𝑄 = 𝑄3 − 𝑄1
𝑄3−𝑄1
Rango semiintercuartílico: 𝑄 = 2
𝑛 𝐾
Momento respecto al origen: 𝑀´𝑘 =
1
𝑛
∑ 𝑥𝑖
𝑖=1
𝑘
DNA y 𝑀´𝑘 =
1
𝑛 ( )
𝑘
∑ 𝑥𝑗 𝑓𝑗
𝑗=1
DA
𝑛 𝑘 𝐾 𝑘
Momento respecto a la media: 𝑀𝑘 =
1
𝑛 (
∑ 𝑥𝑖 − 𝑥
𝑖=1
) DNA y 𝑀𝑘 =
1
𝑛 ( )
∑ 𝑥𝑗 − 𝑥 𝑓𝑗
𝑗=1
DA
𝑚3
Coeficiente de asimetría (a3): 𝑎3 = 3
𝑠
𝑚4
Curtosis: 𝑎4 = 4
𝑠
Descripciones gráficas:
Un histograma es un gráfico que se utiliza para representar la distribución de
frecuencias de algunos puntos de datos de una variable.
Los cálculos representativos para el histograma tomamos los datos de frecuencia y las
marcas de clase que es el Qmax anual si bien los histogramas frecuentemente
clasifican los datos de varios “Contenedores” o “grupos de rango”. Para el ejercicio
debemos de considerar que la marca de clase 3 con una frecuencia de 10 resulta ser la
mayor de todas las demás clases y la de menor grado es la marca de clase 5 con una
frecuencia de 2.
Los polígonos de frecuencia se obtienen al unir los puntos medios de cada rectángulo
del histograma correspondiente, la variable cuantitativa continua con una cualitativa o
cuantitativa discreta. La diferencia que se realiza entre la gráfica del histograma y el
polígono de frecuencia radica en que el primero toma en cuenta las frecuencias y las
marcas de clase; y la segunda requiere que se analice el comportamiento de la
frecuencia con el gasto anual máximo en cual vemos como la figura gráfica tiende a
subir en la marca 961 de gasto máximo anual con respecto a 10 de frecuencia; sin
embargo no es el único pico que presenta ya que en la marca 619 tambien presenta
otro pico con una frecuencia de 6.
5 3,3,4
La unidad de la hoja es de 10
6 4,4,6
7 2
8 1,3,8,9
9 0,0,1,2,7,8,8
10 0,6
11 0,1,4,7
12 4,6
14 0,8
15 5
Función de probabilidad
Para la gráfica de función de probabilidad se tienen como 3 datos distintos graficados.
Por la función Normal podemos observar que la mayor cantidad de gastos máximos se
encuentran en el rango de 600 y 1100 [m3/s]. La función Empírica nos muestra que la
mayor cantidad de gastos máximos se encuentran en el rango de 500 y 961 [m3/s].
Mientras que la función Gumbel presenta que la mayor cantidad de gastos máximos se
encuentran en el rango de 315 y 791 [m3/s].
En base al comportamiento de los datos se optó por preferir la función Normal ya que
esta muestra una mejor representación de nuestros datos para su interpretación, ya
que, es la gráfica en la que mejor se visualiza que los valores más repetidos se
encuentran cerca del valor de 961, igual que lo muestra los Diagramas de cajas y
bigotes.
Para lograr una correcta forma de interpretar los datos de ambas estaciones fue
necesario obtener todas mediciones,esto es importante ya que todos los datos deben
de estar completos ya que si faltan algunos datos ( aunque sean solo de uno o varios
días ) el estudio no será correcto y por lo tanto no se puede tomar como válido.
Entonces en los casos donde no había medición de datos se obtuvieron mediante un
proceso de interpolación y extrapolación mediante la creación de diversas relaciones
(función matemática) entre las estaciones para después pasar por un proceso de
regresión lineal simple y un proceso de regresión simple con modelos linealizables. A
pesar de que este modelo es útil también arrastra ciertas limitaciones ya que la
regresión lineal simple establece que existe una relación entre las variables, pero no
revela una relación causal: Y depende de un algo, pero no implica que genere a Y
Para realizar el cálculo de regresión lineal se deben contemplar los datos obtenidos
para cada estación de cada cuenca pero también observamos que hay datos que faltan
para poder realizar un muestreo completo por lo que se debe de realizar un relleno
extrapolado e extrapolado para cada mes y de esta forma poder tomar en cuenta los
datos que no se tenían por cualquier circunstancia que fuera.
Tomando los datos de la cuenca 30151 para x y los datos de 30141 para y se realiza
una sumatoria de los datos.
Con lo que podremos obtener el valor de Xmedia utilizando la fórmula siguiente:
Σ𝑋
𝑋𝑀𝑒𝑑𝑖𝑎 = 𝑛
Σ𝑌
Para el valor de Ymedia utilizamos la siguiente expresión: 𝑌 = 𝑛
𝑀𝑒𝑑𝑖𝑎
De manera exponencial
β𝑥
𝑦 = α𝑒
𝑙𝑛(𝑦) = 𝑙𝑛 (α𝑒
β🇽)
𝑙𝑛(𝑦) = 𝑙𝑛(α) + 𝑙𝑛(𝑒
🇽)
β
𝑙𝑛 (𝑦) = 𝑙𝑛(α)+βx
𝑦´ = β0´ + β1´𝑥´
𝑦´ = 𝑙𝑛|𝑥|
𝑥´ = 𝑥´
β0´
β0´ = 𝑙𝑛 (𝑥´) ; α =𝑒
β1´ = β0
De manera logarítmica
𝑦´ = β1´𝑥´ + β0´
𝑦 = β 𝑙𝑛 (𝑥) + α
𝑦´ = 𝑦
𝑥´ = 𝑙𝑛 (𝑥)
β1´ = β
β0´ = α
Con respecto a cada valor de la R cuadrada que varía en función de la complejidad del
modelo. Fue una medida útil para evaluar cómo se ajustaba el modelo a la relación de
los registros y qué tan bien se ajusta un modelo de regresión a los datos observados
para finalmente elegir la mejor opción.
Rellenado de mes de octubre
a) Regresión lineal simple
Q30151 Q30140
x y
208 89.4250805
193 81.1812138
204 87.226716
187 77.8836671
169 67.991027
171 69.0902092
181 74.5861204
166 66.3422537
171 69.0902092
287 132.842779
315 148.23133
285 131.743596
217 94.3714005
187 77.8836671
181 74.5861204
169 67.991027
196 82.8299871
222 97.1193561
266 121.301365
323 152.628059
273 125.148503
Gráfica 1.1 En esta gráfica se usa una función lineal para comparar los gastos en X y Y.
Gráfica 1.2 Y finalmente se rellenan los valores faltantes con la regresión lineal calculada y se usa la
función lineal para comparar esos mismos datos en X y Y con los rellenados.
β1´ = β
Q30151 Q30140
x y
204 85.8549996
187 77.9584586
169 69.6824269
171 70.5974314
181 75.1897045
166 68.3121329
171 70.5974314
287 125.359279
315 138.990891
285 124.390963
217 91.9424159
187 77.9584586
181 75.1897045
169 69.6824269
196 82.129673
222 94.2944566
266 115.229509
323 142.910469
273 118.596756
Gráfica 2.1 En esta gráfica se usa una función potencial para comparar los gastos en X y Y.
Gráfica 2.2 En esta gráfica se usa una función lineal para comparar los gastos en X y Y ya
transformados por una constante de logaritmo natural(Ln), se puede proporcionar una idea visual
de la calidad del ajuste. Si los puntos se agrupan alrededor de una línea o curva que representa el
modelo, indica un buen ajuste.
Gráfica 2.3 Y finalmente se rellenan los valores faltantes con la regresión calculada y se usa la
función potencial para comparar esos mismos datos en X y Y con los rellenados, el coeficiente de
correlación es de los mejores y más cercano a 1, lo que indica un buen ajuste, Sin embargo, la R
cuadrada por sí sola no es suficiente y debe combinarse con otras técnicas de evaluación
x y
146 68.76163
142 66.61035
135 62.84561
132 61.23215
132 61.23215
129 59.61869
124 56.92959
121 55.31613
126 58.00523
324 164.4936
357 182.2416
278 139.7539
223 110.1738
197 96.19044
225 111.2494
242 120.3923
206 101.0308
181 87.58533
181 87.58533
214 105.3334
281 141.3673
Gráfica 3.1. En esta gráfica se usa una función lineal para comparar los gastos en X y Y.
Gráfica 3.2 Y finalmente se rellenan los valores faltantes con la regresión lineal calculada y se usa la
función lineal para comparar esos mismos datos en X y Y con los rellenados.
b) Regresión simple con modelos linealizables ( Potencial)
Q30151 Q30140
x y
135 60.21493
132 59.25054
132 59.25054
129 58.27995
124 56.64803
121 55.66
126 57.30298
324 112.9446
357 121.0958
278 101.1786
223 86.35844
197 78.99955
225 86.91419
242 91.58349
206 81.57614
181 74.33522
181 74.33522
214 83.83995
281 101.9619
Gráfica 4.1 En esta gráfica se usa una función potencial para comparar los gastos en X y Y.
Gráfica 4.2 En esta gráfica se comparan los gastos medidos y el modelo linealizable potencial en X y Y.
Gráfica 4.3. En esta gráfica se usa una función exponencial para comparar los gastos medidos y
rellenados en X y Y.
Rellenado mes de diciembre
a) Regresión lineal simple
Q30151 Q30140
x y
134 68.60383
139 71.66592
146 75.95284
139 71.66592
131 66.76658
124 62.47966
121 60.64241
118 58.80516
117 58.19274
113 55.74307
110 53.90582
110 53.90582
107 52.06857
106 51.45615
101 48.39406
96.1 45.39322
94.6 44.47459
93 43.49472
91.4 42.51486
89.9 41.59623
88.3 40.61636
Gráfica 5.1. En esta gráfica se usa una función exponencial para comparar los gastos en X y Y.
Gráfica 5.2 En esta gráfica se comparan los datos medidos y el modelo lineal.
b) Regresión simple con modelos linealizables (Potencia)
Q30151 Q30140
x y
146 61.2736
139 59.10172
131 56.58366
124 54.34668
121 53.37777
118 52.40246
117 52.0759
113 50.76215
110 49.76874
110 49.76874
107 48.7681
106 48.4329
101 46.74412
96.1 45.06743
94.6 44.54966
93 43.99496
91.4 43.43772
89.9 42.91295
88.3 42.35063
Gráfica 6.1. En esta gráfica se usa una función lineal para comparar los gastos en X y Y.
Gráfica 6.2 En esta gráfica se comparan los datos rellenados y los medidos con el modelo
linealizable potencial.
Gráfica 6.3 En esta gráfica se comparan los gastos medidos y el modelo linealizable potencial.
Conclusiones:
El objetivo del presente trabajo fue analizar el comportamiento de gastos de la Cuenca
30151 que contiene los gastos máximos de cada año en el periodo de 1965 a 1993 se
observó que el gasto máximo fue de 1557 [m3/s], valor que se debe tomar en cuenta
para proyectos relacionados con inundaciones. En general los valores indicarían una
variabilidad del flujo valor bastante alto pues observado el más bajo fue de 536 [m3/s],
el cual, tuvo una mayor frecuencia que el máximo, por lo tanto será un parámetro para
aquellas obras o proyectos que estén relacionados con temas de sequía en la zona.
La moda resultó con un valor de 755.8 (con datos agrupados); esto podría significar
que existen dos mecanismos de precipitación, uno de lluvia ciclónica y otro de lluvia
holográfica, en este sentido, deben ser estos los valores que se deberán utilizar para
cualquier obra Hidráulica desarrollada en la región siempre y cuando considere que
debe estar capacitada para poder manejar los valores mínimo y máximo antes
mencionado.
Hay que resaltar que la muestra tiene dos frecuencias altas que se observan como dos
picos en el Polígono de frecuencias, una con 961 y otra con 619 con los valores de 10
y 6. Este comportamiento se debe al orden en el que se encuentran las frecuencias ya
que al valor de 6 lo secunda el valor de 3 que se encuentra detrás del valor de 10 y
luego el valor de 5. Debido a esto es que nuestra muestra no presenta ninguna moda
cuando se estudia como datos no agrupados ya que la mayor cantidad de gastos
máximos se concentran en los valores de 961 [m3/s] y 619 [m3/s]. Por tanto,
físicamente podríamos decir que lo más probable es que se hayan presentado dos
temporadas lluviosas al año, la primera entre abril y mayo, y la segunda de octubre a
noviembre.
En cuanto a los coeficientes de dispersión de ambas cuencas observamos que son
muy parecidas ya que ambas oscilan entre el valor de 0.3, lo anterior es porque una se
deriva de la otra. En este sentido podemos deducir que los valores de los gastos
máximos no varían mucho entre ellos y esto es muy útil para las planificaciones de
proyectos ya que los parámetros en los que se debe diseñar no serán grandes. Esto
nos lo reafirma el valor de la curtosis ya que en la cuenca 30151 es de 2.42 mientras
que en la cuenca 30140 es de 3.8, si bien los valores no son muy parecido en la
representación gráfica si lo son y eso es porque ambas presentan un comportamiento
leptocúrtico que se repite dos veces, es decir que hay mayor cantidad de gastos en dos
valores.
Los resultados obtenidos pueden servir como una línea de tendencia para evaluar y
estimar los posibles gastos futuros.
A veces es necesario hacer un estudio general de las condiciones de cada cuenca, ya
que si bien los datos para la cuenca 30151 indicaba una variabilidad de flujo bastante
alta al momento de realizar los cálculos necesarios el porcentaje de error resulta ser
considerablemente alto. Por lo que la medición y su estudio anual resulta ser muy
favorable para condiciones o características se ven afectadas por diversos factores.
Conclusión de regresión:
En conclusión, la regresión permite estimar la influencia de una o más variables
independientes sobre una variable dependiente, lo que proporciona una base para la
predicción y comprensión de los fenómenos estudiados. De las gráficas que se hicieron
para los 3 meses, se pudo estimar las mejores opciones de acuerdo a métricas como el
coeficiente de determinación o la forma de las gráficas. Nos proporcionó información
valiosa sobre la relación entre los gastos de las cuencas en los registros de la estación
hidrométrica 30140 a partir de la información de la EH 30151. En los tres casos
correspondientes a los meses de octubre, noviembre y diciembre, el modelo
linealizable escogido como mejor opción fue el potencial debido a que su coeficiente de
determinación fue mayor en comparación con los otros modelos. Al utilizar la regresión
es importante considerar el ajuste del modelo a los datos, evaluar la significancia
estadística de los coeficientes, utilizar medidas adicionales para evaluar la calidad y la
precisión del modelo.
La regresión no sólo ofrece la capacidad de hacer predicciones, sino que también
puede ayudar a identificar patrones, tendencias y relaciones en los datos. Sin embargo,
es esencial recordar que la regresión sólo establece una relación correlacional y no
implica necesariamente causalidad.
En resumen, la regresión es una herramienta valiosa para el análisis estadístico y la
modelización de relaciones entre variables, su aplicación adecuada y cuidadosa
permite obtener información útil y significativa, lo que contribuye a la comprensión y la
toma de decisiones en diversos campos, como la investigación científica, el análisis de
negocios y la planificación estratégica.
Al interpretar los datos nos podemos dar cuenta que la relación que existe entre la
cuenca 30151 y la subcuenca 30140 para los meses de de octubre, noviembre y
diciembre es mejor expresada mediante la función lineal pero al optar por otra función
en los tres casos la mejor función es la potencial.
Bibliografías
- Distribución de frecuencias. (2021, January 8). Estadística Descriptiva. Retrieved
April 25, 2023, from
https://www.uv.es/webgid/Descriptiva/3_distribucin_de_frecuencias.html
- Flores, G. (2020, July 9). Que es una distribución numérica? –
La-Respuesta.com. Retrieved April 25, 2023, from
https://la-respuesta.com/pautas/que-es-una-distribucion-numerica/
- Otzen, T., & Manterola, C. (2017). Técnicas de Muestreo sobre una Población a
Estudio. International Journal of Morphology, 35(1), 227–232.
https://doi.org/10.4067/s0717-95022017000100037