Está en la página 1de 34

Universidad Nacional Autónoma

de México
Facultad de Ingeniería
División de ingeniería civil y geomática

Materia: Estadística aplicada a la ingeniería civil

Profesor: M.I. David Paniagua Lovera

Tarea 2: Regresión lineal simple

Grupo : 01

Integrantes:

Alvarez Mejia Itsuri Olinca


Arenas Bonilla Eduardo
García González Eduardo
Gutierrez Almeida Monserrath
Reyes Sainos Michelle Ariadna

Semestre: 2023-2

Fecha de entrega: 12 de Mayo del 2023


Objetivo
En este informe se presentan los resultados de un análisis muestral de los gastos
máximos para la estación hidrométrica 30151 que contenga distribución de frecuencias,
descripciones numéricas y descripciones gráficas, así como comparación de funciones
de probabilidad.
Aplicar los conocimientos adquiridos sobre el tema Estadística descriptiva para la
interpretación del comportamiento de la estación hidrométrica 30151.

Introducción
Las estaciones hidrométricas son puntos establecidos en los que se mide la cantidad
de agua disponible en cuerpos de agua originados por la lluvia y los escurrimientos,
como lo son ríos, arroyos, lagunas o embalses, dichas estaciones pueden estar
equipadas con regletas graduadas, sensores de medición, aforadores, entre otros.
Para las estaciones hidrométricas el personal capacitado se encarga de registrar los
niveles de agua en horas preestablecidas, durante una tormenta o el desfogue de una
presa. Al conocer la cantidad y la calidad de los recursos hídricos se realiza una mejor
distribución para el abastecimiento del agua potable municipal y la que se emplea para
la industria, la generación de energía hidroeléctrica e irrigación de los campos, entre
otras actividades.
Una cuenca hidrográfica es una zona de la superficie terrestre en donde las gotas de
lluvia que caen sobre ella tienden a ser drenadas por el sistema de corrientes hacia un
punto en común llamado punto de salida de la cuenca. Los límites de una cuenca están
constituidos naturalmente por lo que se conoce como “parteaguas” o “divisorias de
agua”, es decir, son las líneas imaginarias que unen las crestas de las elevaciones del
terreno, por cuyas laderas escurre el agua, hacia el cauce principal de salida de la
propia cuenca o hacia su centro, en caso de ser cerrada.

Muestra de estudio
Gastos máximos de las estaciones hidrométricas 30151 y 30140 correspondientes al
año 1965 hasta el año 1993.
Interpolar y extrapolar
Por diferentes problemas que se presentan en el proceso de tomar mediciones en las
estaciones hidrométricas es que en la muestra que se tomó de la estación 30140 no
existen datos para su estudio en los meses de septiembre, octubre, noviembre y
diciembre; por ello, es que se recurre a métodos de interpolación y extrapolación, es
decir, métodos que mediante valores de puntos conocidos obtener valores en puntos
desconocidos que se encuentren dentro o fuera de la muestra de análisis. En este caso
los puntos que conocemos son los de la estación 30151 y son estos los que nos serán
la base para obtener los valores que nos faltan.
Desarrollo

Tabla de distribución de frecuencias


Se muestra de forma ordenada un conjunto de datos estadísticos y a cada uno de ellos
le asigna una frecuencia que, son las veces que se repite un número o dato.
La realización de la tabla de frecuencias se hizo por medio de la siguiente metodología:
Las fronteras de clase se recorren media unidad de aproximación a la izquierda y a la
derecha. La marca de clase es el valor representativo de cada clase.
Las fórmulas utilizadas para las frecuencias son:

Frecuencia (fi): cantidad de datos pertenecientes a una clase.


𝑓
Frecuencia relativa (f*): 𝑓 *= 𝑛

𝑖
Frecuencia acumulada (F): 𝐹𝑖 = ∑ 𝑓𝑘
𝑘=1

𝐹
Frecuencia relativa acumulada (F*): 𝐹 *= 𝑛

Clase Límites de clase Fronteras de Marcas frecuencia Frecuencia frecuencia Frecuencia acumulada relativa,
(EXCLUYENTE) clase de clase, , fi acumulada, relativa, fi* Fi*
xi Fi
1 534 704 533.5 704.5 619 6 6 0.206896552 0.206896552

2 705 875 704.5 875.5 790 3 9 0.103448276 0.310344828

3 876 1046 875.5 1046.5 961 10 19 0.344827586 0.655172414

4 1047 1217 1046.5 1217.5 1132 5 24 0.172413793 0.827586207

5 1218 1388 1217.5 1388.5 1303 2 26 0.068965517 0.896551724

6 1389 1559 1388.5 1559.5 1474 3 29 0.103448276 1

Descripciones numéricas
Las descripciones numéricas son de tendencia central, dispersión y de forma.
Media aritmética(𝑥), que se obtiene cuando se suman todos los datos de un análisis
estadístico y se dividen por la cantidad total de datos.
𝑘 𝑛
(𝑥) : 𝑥=
1
𝑛
𝑗=1
( )
∑ 𝑥𝑗𝑓𝑗 DA y 𝑥=
1
𝑛 ( )
∑ 𝑥𝑖 DNA
𝑖=1

Media geométrica (G) mide la tasa de crecimiento porcentual promedio de algunas


series dadas, a través del tiempo.

𝐺 =
𝑛 𝑘
𝑖=1 (𝑥𝑖) DNA y 𝐺=
𝑛 𝑘
𝑗=1 (𝑥 ) DA
𝑓𝑗
𝑗

𝑛 𝑛
Media armónica (H): 𝐻= 𝑛 DNA y 𝐻= 𝑘 DNA
𝑖=1
∑ ( ) 1
𝑥𝑖

𝑗=1
( ) 𝑓𝑗
𝑥𝑗

Mediana: 𝑥 = 𝑥 ( ) DNA
𝑛+1
2

∆1
Moda: Para DNA la muestra es a modal y 𝑥𝑚𝑜 = 𝐿𝑅 𝑖𝑛𝑓 + ∆1+∆2
𝑐 DA
{𝑥1:𝑥𝑖≤𝐶𝑝} {𝑥1:𝑥𝑖>𝐶𝑝}
Cuantiles (Cp, C(p)): 𝑛
≥𝑝 y 𝑛
≥1 − 𝑝 DNA

Datos no agrupados Datos agrupados Error %

Media aritmética, xa 961.0690 978.6897 1.83%

Media geométrica, G 923.15 944.0513 2.26%

Media armónica, H 884.7877 909.5612 2.80%

Medidas de Mediana, xmed 948.5000 1360.0000 43.38%


tendencia
central Moda, xmo #N/D 755.8000 #N/D

Relación media-moda-mediana #N/D 1366.82 #N/D

Decil, P10 541.0000 408.3200 -24.52%

Percentil, P25 822.0000 458.3000 -44.25%

Decil, D9 1408.0000 802.9000 -42.98%

Cuartil, Q3 1130.0000 642.2500 -43.16%

En la tabla anterior se muestra que los gastos promedios por año por la tanto se puede
tener un gasto estimado dado que el error es bajo, la probabilidad es bastante lógica.
Considerando que el análisis de los a través del tiempo muestra que los gastos
máximos prácticamente siempre se presentan

( )
Rango (R): 𝑅 = 𝑚𝑎𝑥 𝑥𝑖 − 𝑚𝑖𝑛 𝑥𝑖 ( ) DNA y 𝑅 = 𝐿2𝑘 − 𝐿1 DA
𝑘 𝑘
∑ |||𝑥𝑖 − 𝑥||| ∑ |||𝑥𝑗 − 𝑥|||𝑓𝑗
1 1
Desviación media (DM): 𝐷𝑀 = 𝑛
DNA y 𝐷𝑀 = 𝑛
DA
𝑖=1 𝑗=1

Σ|||𝑥𝑖 − 𝑥||| DNA y Σ|||𝑥𝑗 − 𝑥|||𝑓𝑗 DA


1 1
Desviación mediana (DMd): 𝐷𝑀𝑑 = 𝑛
𝐷𝑀𝑑 = 𝑛

2 2
Varianza (S2):
2
𝑆𝑛−1 =
1
𝑛−1 (
Σ 𝑥𝑖 − 𝑥 ) DNA y
2
𝑆𝑛−1 =
1
𝑛−1 (
Σ 𝑥𝑗 − 𝑥 𝑓𝑗 ) DA
2
Desviación estándar (típica): 𝑆𝑛 = 𝑆𝑛

𝑆
Coeficiente de variación (CV): 𝐶𝑉 =
|𝑥|

Rango intercuartílico: 𝑅𝑄 = 𝑄3 − 𝑄1

𝑄3−𝑄1
Rango semiintercuartílico: 𝑄 = 2

Rango percentil: 𝑅𝑃 = 𝑃90 − 𝑃10

Datos no agrupados Datos agrupados Error %

Rango, R 1021.0000 1025.0000 0.39%

Desviación media, DM 210.4851 200.0761 -4.95%

Desviación mediana, DMd 210.0517 404.8966 92.76%

Varianza, (Sn-1)2 74261.1379 69645.4360 -6.22%

Medidas Desviación estándar, Sn-1 272.5090 263.9042 -3.16%


de dispersión
Desviación estándar con R, Sn-1 255.2500 256.2500 0.39%

Coeficiente de variación, CVn-1 0.2835 0.2697 -4.90%

Rango intercuartílico, RQ 308.0000 183.9500 -40.28%

Rango semi-intercuartílico, Q 154.0000 91.9750 -40.28%

Rango percentil, RP 867.0000 394.5800 -54.49%

𝑛 𝐾
Momento respecto al origen: 𝑀´𝑘 =
1
𝑛
∑ 𝑥𝑖
𝑖=1
𝑘
DNA y 𝑀´𝑘 =
1
𝑛 ( )
𝑘
∑ 𝑥𝑗 𝑓𝑗
𝑗=1
DA
𝑛 𝑘 𝐾 𝑘
Momento respecto a la media: 𝑀𝑘 =
1
𝑛 (
∑ 𝑥𝑖 − 𝑥
𝑖=1
) DNA y 𝑀𝑘 =
1
𝑛 ( )
∑ 𝑥𝑗 − 𝑥 𝑓𝑗
𝑗=1

DA
𝑚3
Coeficiente de asimetría (a3): 𝑎3 = 3
𝑠

𝑚4
Curtosis: 𝑎4 = 4
𝑠

Datos no agrupados Datos agrupados Error %

Primer momento respecto al Origen, m'1 961.0690 978.6897 1.83%

Seg. momento respecto al Origen, m'2 995353.9655 1025077.3103 2.99%

Tercer momento respecto al Origen, m'3 1100671394.5172 1140073694.1379 3.58%


Medidas
de forma Cuarto momento respecto al Origen, m'4 1287908260078.2400 1335006829610.5500 3.66%

Primer momento respecto a la media, m1 0.0000 0.0000 #¡DIV/0!

Seg. momento respecto a la media, m2 71700.4090 67243.8692 -6.22%

Seg. momento respecto a la media, m2 71700.4090 67243.8692 -6.22%

Tercer momento respecto a la media, m3 6249512.6737 5219376.4254 -16.48%

Tercer momento respecto a la media, m3 6249512.6737 5219376.4254 -16.48%

Cuarto momento respecto a la media, m4 13389490110.3566 10678769977.6395 -20.25%

Cuarto momento respecto a la media, m4 13389490110.3569 10678769977.6392 -20.25%

Sesgo o coeficiente de asimetría, a3 0.3088 0.2840 -8.04%

Curtosis, a4 2.4280 2.2016 -9.32%

Descripciones gráficas:
Un histograma es un gráfico que se utiliza para representar la distribución de
frecuencias de algunos puntos de datos de una variable.
Los cálculos representativos para el histograma tomamos los datos de frecuencia y las
marcas de clase que es el Qmax anual si bien los histogramas frecuentemente
clasifican los datos de varios “Contenedores” o “grupos de rango”. Para el ejercicio
debemos de considerar que la marca de clase 3 con una frecuencia de 10 resulta ser la
mayor de todas las demás clases y la de menor grado es la marca de clase 5 con una
frecuencia de 2.
Los polígonos de frecuencia se obtienen al unir los puntos medios de cada rectángulo
del histograma correspondiente, la variable cuantitativa continua con una cualitativa o
cuantitativa discreta. La diferencia que se realiza entre la gráfica del histograma y el
polígono de frecuencia radica en que el primero toma en cuenta las frecuencias y las
marcas de clase; y la segunda requiere que se analice el comportamiento de la
frecuencia con el gasto anual máximo en cual vemos como la figura gráfica tiende a
subir en la marca 961 de gasto máximo anual con respecto a 10 de frecuencia; sin
embargo no es el único pico que presenta ya que en la marca 619 tambien presenta
otro pico con una frecuencia de 6.

En estadística,una Ojiva es un gráfico que muestra la curva de una función de


distribución acumulada. Los puntos trazados son el límite de la clase superior y la
frecuencia acumulativa correspondiente.
El gráfico de pastel se realiza con la frecuencia y las marcas de clase, permite
visualizar la distribución de datos en las marcas de clase. Se puede observar que en la
marca de clase 961 es en donde más se concentran los datos de gastos con un 35% y
la menor es la marca de clase 1303 con un 7%.
DIAGRAMA DE TALLO Y HOJAS Tallo Hojas

5 3,3,4
La unidad de la hoja es de 10
6 4,4,6

7 2

8 1,3,8,9

9 0,0,1,2,7,8,8

10 0,6

11 0,1,4,7

12 4,6

14 0,8

15 5

En general los 2 boxplot permiten visualizar y comparar la distribución y la tendencia


central de valores numéricos mediante sus cuartiles, es una forma de presentación
estadística destinada, fundamentalmente, a resaltar aspectos de la distribución de las
observaciones en una o más series de datos cuantitativos.
Es una representación visual que muestra una distribución de datos, normalmente
entre grupos, basada en un resumen de cinco números: el mínimo, el primer cuartil, la
mediana (segundo cuartil), el tercer cuartil y el máximo.

La Bloxpot II es una presentación horizontal de la Bloxpot I ya que su forma de


distribución es la misma (el mínimo, el primer cuartil, la mediana (segundo cuartil), el
tercer cuartil y el máximo). En ambas representaciones nos podemos dar cuenta que
más del 75% de los gastos máximos anuales tiene un valor por encima de 800 [m3/s].
La media que se observa tiene una valor aproximado de 926 [m3/s].

Función de probabilidad
Para la gráfica de función de probabilidad se tienen como 3 datos distintos graficados.
Por la función Normal podemos observar que la mayor cantidad de gastos máximos se
encuentran en el rango de 600 y 1100 [m3/s]. La función Empírica nos muestra que la
mayor cantidad de gastos máximos se encuentran en el rango de 500 y 961 [m3/s].
Mientras que la función Gumbel presenta que la mayor cantidad de gastos máximos se
encuentran en el rango de 315 y 791 [m3/s].
En base al comportamiento de los datos se optó por preferir la función Normal ya que
esta muestra una mejor representación de nuestros datos para su interpretación, ya
que, es la gráfica en la que mejor se visualiza que los valores más repetidos se
encuentran cerca del valor de 961, igual que lo muestra los Diagramas de cajas y
bigotes.

Para lograr una correcta forma de interpretar los datos de ambas estaciones fue
necesario obtener todas mediciones,esto es importante ya que todos los datos deben
de estar completos ya que si faltan algunos datos ( aunque sean solo de uno o varios
días ) el estudio no será correcto y por lo tanto no se puede tomar como válido.
Entonces en los casos donde no había medición de datos se obtuvieron mediante un
proceso de interpolación y extrapolación mediante la creación de diversas relaciones
(función matemática) entre las estaciones para después pasar por un proceso de
regresión lineal simple y un proceso de regresión simple con modelos linealizables. A
pesar de que este modelo es útil también arrastra ciertas limitaciones ya que la
regresión lineal simple establece que existe una relación entre las variables, pero no
revela una relación causal: Y depende de un algo, pero no implica que genere a Y

Las funciones que se consideraron son las siguientes:

Regresión Lineal Simple


Realizar el relleno y extensión de registros de la estación hidrométrica 30140 a partir de
la información de la EH 30151
Los datos con los que contamos son los gastos medidos de las estaciones
hidrométricas 30140 y 30150 a partir del año de 1965 hasta el año de 1993 para los
meses de octubre, noviembre y diciembre.

Para realizar el cálculo de regresión lineal se deben contemplar los datos obtenidos
para cada estación de cada cuenca pero también observamos que hay datos que faltan
para poder realizar un muestreo completo por lo que se debe de realizar un relleno
extrapolado e extrapolado para cada mes y de esta forma poder tomar en cuenta los
datos que no se tenían por cualquier circunstancia que fuera.
Tomando los datos de la cuenca 30151 para x y los datos de 30141 para y se realiza
una sumatoria de los datos.
Con lo que podremos obtener el valor de Xmedia utilizando la fórmula siguiente:
Σ𝑋
𝑋𝑀𝑒𝑑𝑖𝑎 = 𝑛

Σ𝑌
Para el valor de Ymedia utilizamos la siguiente expresión: 𝑌 = 𝑛
𝑀𝑒𝑑𝑖𝑎

El valor de n es la suma de todos los caracteres contemplados tanto para X y Y es el


mismo.
Con los resultados obtenidos de Xmedia y Ymedia se realiza el cálculo para cada dato
2
utilizando la siguiente expresión (𝑋 − 𝑋𝑀𝑒𝑑𝑖𝑎) y consecuentemente también se

prosigue a realizar la sumatoria de todos los resultados obtenidos. En base a la anterior


2
se prosigue a utilizar las siguientes expresiones (𝑌 − 𝑌𝑀𝑒𝑑𝑖𝑎) y

[(𝑋 − 𝑋𝑀𝑒𝑑𝑖𝑎) * (𝑌 − 𝑌𝑀𝑒𝑑𝑖𝑎)].

Para el resultado de la Varianza en X se usa la siguiente expresión


2
Σ(𝑋 − 𝑋𝑀𝑒𝑑𝑖𝑎)
𝑣𝑎𝑟𝑋 = 𝑛
2
Σ(𝑌 − 𝑌𝑀𝑒𝑑𝑖𝑎)
Para el resultado de la Varianza en Y → 𝑣𝑎𝑟𝑌 = 𝑛

Σ[(𝑋 − 𝑋𝑀𝑒𝑑𝑖𝑎)*(𝑌 − 𝑌𝑀𝑒𝑑𝑖𝑎)]


Para el resultado de la Covarianza en X,Y → 𝐶𝑂𝑉(𝑋, 𝑌) = 𝑛
𝐶𝑂𝑉(𝑋,𝑌)
Coeficiente de correlación → 𝑅 =
𝑣𝑎𝑟(𝑋)*𝑣𝑎𝑟(𝑌)
2
2 𝐶𝑂𝑉 (𝑋,𝑌)
Coeficiente de determinación → 𝑅 = 𝑣𝑎𝑟(𝑋)*𝑣𝑎𝑟(𝑌)
→ Caso lineal.
𝐶𝑂𝑉(𝑋,𝑌)
β1 = 𝑣𝑎𝑟(𝑋)
; β0 = 𝑌𝑀𝑒𝑑𝑖𝑎 − β1 * 𝑋𝑀𝑒𝑑𝑖𝑎

De manera exponencial
β𝑥
𝑦 = α𝑒

𝑙𝑛(𝑦) = 𝑙𝑛 (α𝑒
β🇽)
𝑙𝑛(𝑦) = 𝑙𝑛(α) + 𝑙𝑛(𝑒
🇽)
β

𝑙𝑛 (𝑦) = 𝑙𝑛(α)+βx
𝑦´ = β0´ + β1´𝑥´

𝑦´ = 𝑙𝑛|𝑥|
𝑥´ = 𝑥´
β0´
β0´ = 𝑙𝑛 (𝑥´) ; α =𝑒

β1´ = β0

De manera logarítmica
𝑦´ = β1´𝑥´ + β0´

𝑦 = β 𝑙𝑛 (𝑥) + α
𝑦´ = 𝑦
𝑥´ = 𝑙𝑛 (𝑥)
β1´ = β

β0´ = α

Con respecto a cada valor de la R cuadrada que varía en función de la complejidad del
modelo. Fue una medida útil para evaluar cómo se ajustaba el modelo a la relación de
los registros y qué tan bien se ajusta un modelo de regresión a los datos observados
para finalmente elegir la mejor opción.
Rellenado de mes de octubre
a) Regresión lineal simple
Q30151 Q30140

Relleno extrapolado e interpolado

x y

327 154.826423 xmedia 242.23045

291 135.041143 ymedia 108.237832

273 125.148503 n 867

249 111.958316 var(x) 20854.3014

231 102.065676 var(y) 7007.11393

228 100.416903 cov(x,y) 11461.3388

220 96.0201739 β0 -24.8898715

311 146.032965 β1 0.54959112

288 133.39237 r 0.94813011

234 103.71445 R2 0.8989507

208 89.4250805

193 81.1812138

204 87.226716

187 77.8836671

169 67.991027

171 69.0902092

181 74.5861204

166 66.3422537

171 69.0902092

287 132.842779

315 148.23133

285 131.743596
217 94.3714005

187 77.8836671

181 74.5861204

169 67.991027

196 82.8299871

222 97.1193561

266 121.301365

323 152.628059

273 125.148503

Gráfica 1.1 En esta gráfica se usa una función lineal para comparar los gastos en X y Y.
Gráfica 1.2 Y finalmente se rellenan los valores faltantes con la regresión lineal calculada y se usa la
función lineal para comparar esos mismos datos en X y Y con los rellenados.

b) Regresión simple con modelos linealizables (Potencia), Elegimos este modelo


también pues
Para realizar la regresión simple con el modelo linealizable de potencia se
realiza la siguiente analogía:
β
𝑦 = α𝑥 𝑎𝑝𝑙𝑖𝑐𝑎𝑛𝑑𝑜 𝑙𝑛 𝐷𝑜𝑛𝑑𝑒:
β
(
𝑙𝑛(𝑦) = 𝑙𝑛 α · 𝑥 ) 𝑦´ = 𝑙𝑛(𝑦)

𝑙𝑛(𝑦) = 𝑙𝑛(α) + 𝑙𝑛 𝑥 ( β) 𝑥´ = 𝑙𝑛(𝑥)


𝑙𝑛(𝑦) = 𝑙𝑛(α) + β 𝑙𝑛(𝑥) β0´ = 𝑙𝑛(α)

β1´ = β

Q30151 Q30140

Relleno extrapolado e interpolado

x y

327 144.874241 xmedia 5.35718048

291 127.298113 ymedia 4.49597256


273 118.596756 n 867

249 107.092479 var(x) 0.24487974

231 98.5426051 var(y) 0.32947251

228 97.1245177 cov(x,y) 0.27153815

220 93.3529409 β0 -1.44440807

311 137.035146 β1 1.10886326

288 125.843714 r 0.95597126

234 99.9626989 R2 0.91388105

208 87.7236756 α 0.23588566

193 80.7369023 β 1.10886326

204 85.8549996

187 77.9584586

169 69.6824269

171 70.5974314

181 75.1897045

166 68.3121329

171 70.5974314

287 125.359279

315 138.990891

285 124.390963

217 91.9424159

187 77.9584586

181 75.1897045

169 69.6824269

196 82.129673

222 94.2944566

266 115.229509
323 142.910469

273 118.596756

Gráfica 2.1 En esta gráfica se usa una función potencial para comparar los gastos en X y Y.

Gráfica 2.2 En esta gráfica se usa una función lineal para comparar los gastos en X y Y ya
transformados por una constante de logaritmo natural(Ln), se puede proporcionar una idea visual
de la calidad del ajuste. Si los puntos se agrupan alrededor de una línea o curva que representa el
modelo, indica un buen ajuste.
Gráfica 2.3 Y finalmente se rellenan los valores faltantes con la regresión calculada y se usa la
función potencial para comparar esos mismos datos en X y Y con los rellenados, el coeficiente de
correlación es de los mejores y más cercano a 1, lo que indica un buen ajuste, Sin embargo, la R
cuadrada por sí sola no es suficiente y debe combinarse con otras técnicas de evaluación

Rellenado mes de noviembre


a) Regresión lineal simple
Q30151 Q30140

Relleno extrapolado e interpolado

x y

242 120.3923 xmedia 134.1356

212 104.2577 ymedia 62.38071

192 93.50134 n 840

176 84.89623 var(x) 6374.659

171 82.20713 var(y) 2196.66

176 84.89623 cov(x,y) 3428.419

212 104.2577 β0 -9.76008

181 87.58533 β1 0.53782

159 75.75329 r 0.916187


151 71.45073 R2 0.839398

146 68.76163

142 66.61035

135 62.84561

132 61.23215

132 61.23215

129 59.61869

124 56.92959

121 55.31613

126 58.00523

324 164.4936

357 182.2416

278 139.7539

223 110.1738

197 96.19044

225 111.2494

242 120.3923

206 101.0308

181 87.58533

181 87.58533

214 105.3334

281 141.3673
Gráfica 3.1. En esta gráfica se usa una función lineal para comparar los gastos en X y Y.

Gráfica 3.2 Y finalmente se rellenan los valores faltantes con la regresión lineal calculada y se usa la
función lineal para comparar esos mismos datos en X y Y con los rellenados.
b) Regresión simple con modelos linealizables ( Potencial)
Q30151 Q30140

Relleno extrapolado e interpolado

x y

242 91.58349 xmedia 4.792125

212 83.27626 ymedia 4.016628

192 77.55381 n 840

176 72.85411 var(x) 0.199149

171 71.36111 var(y) 0.172986

176 72.85411 cov(x,y) 0.143078

212 83.27626 β0 0.573743

181 74.33522 β1 0.718447

159 67.72662 r 0.770865

151 65.2607 R2 0.594232

146 63.70083 α 1.774898

142 62.44208 β 0.718447

135 60.21493

132 59.25054

132 59.25054

129 58.27995

124 56.64803

121 55.66

126 57.30298

324 112.9446

357 121.0958

278 101.1786

223 86.35844
197 78.99955

225 86.91419

242 91.58349

206 81.57614

181 74.33522

181 74.33522

214 83.83995

281 101.9619

Gráfica 4.1 En esta gráfica se usa una función potencial para comparar los gastos en X y Y.
Gráfica 4.2 En esta gráfica se comparan los gastos medidos y el modelo linealizable potencial en X y Y.

Gráfica 4.3. En esta gráfica se usa una función exponencial para comparar los gastos medidos y
rellenados en X y Y.
Rellenado mes de diciembre
a) Regresión lineal simple
Q30151 Q30140

Relleno extrapolado e interpolado

x y

303 172.1024 xmedia 102.3467

261 146.3808 ymedia 49.21878

234 129.8456 n 868

214 117.5972 var(x) 6360.082

192 104.124 var(y) 5227.43

175 93.71294 cov(x,y) 3895.024

162 85.75152 β0 -13.4601

156 82.07701 β1 0.612417

148 77.17768 r 0.675515

140 72.27834 R2 0.45632

134 68.60383

139 71.66592

146 75.95284

139 71.66592

131 66.76658

124 62.47966

121 60.64241

118 58.80516

117 58.19274

113 55.74307

110 53.90582

110 53.90582

107 52.06857
106 51.45615

101 48.39406

96.1 45.39322

94.6 44.47459

93 43.49472

91.4 42.51486

89.9 41.59623

88.3 40.61636

Gráfica 5.1. En esta gráfica se usa una función exponencial para comparar los gastos en X y Y.

Gráfica 5.2 En esta gráfica se comparan los datos medidos y el modelo lineal.
b) Regresión simple con modelos linealizables (Potencia)
Q30151 Q30140

Relleno extrapolado e interpolado

x y

303 104.7568 xmedia 4.516836

261 93.88234 ymedia 3.772496

234 86.6462 n 868

214 81.14253 var(x) 0.191214

192 74.92788 var(y) 0.158611

175 69.99537 cov(x,y) 0.140451

162 66.13722 β0 0.454787

156 64.329 β1 0.734521

148 61.88902 r 0.806486

140 59.41374 R2 0.65042

134 57.53259 α 1.575838

139 59.10172 β 0.734521

146 61.2736

139 59.10172

131 56.58366

124 54.34668

121 53.37777

118 52.40246

117 52.0759

113 50.76215

110 49.76874

110 49.76874

107 48.7681
106 48.4329

101 46.74412

96.1 45.06743

94.6 44.54966

93 43.99496

91.4 43.43772

89.9 42.91295

88.3 42.35063

Gráfica 6.1. En esta gráfica se usa una función lineal para comparar los gastos en X y Y.

Gráfica 6.2 En esta gráfica se comparan los datos rellenados y los medidos con el modelo
linealizable potencial.
Gráfica 6.3 En esta gráfica se comparan los gastos medidos y el modelo linealizable potencial.

Conclusiones:
El objetivo del presente trabajo fue analizar el comportamiento de gastos de la Cuenca
30151 que contiene los gastos máximos de cada año en el periodo de 1965 a 1993 se
observó que el gasto máximo fue de 1557 [m3/s], valor que se debe tomar en cuenta
para proyectos relacionados con inundaciones. En general los valores indicarían una
variabilidad del flujo valor bastante alto pues observado el más bajo fue de 536 [m3/s],
el cual, tuvo una mayor frecuencia que el máximo, por lo tanto será un parámetro para
aquellas obras o proyectos que estén relacionados con temas de sequía en la zona.
La moda resultó con un valor de 755.8 (con datos agrupados); esto podría significar
que existen dos mecanismos de precipitación, uno de lluvia ciclónica y otro de lluvia
holográfica, en este sentido, deben ser estos los valores que se deberán utilizar para
cualquier obra Hidráulica desarrollada en la región siempre y cuando considere que
debe estar capacitada para poder manejar los valores mínimo y máximo antes
mencionado.
Hay que resaltar que la muestra tiene dos frecuencias altas que se observan como dos
picos en el Polígono de frecuencias, una con 961 y otra con 619 con los valores de 10
y 6. Este comportamiento se debe al orden en el que se encuentran las frecuencias ya
que al valor de 6 lo secunda el valor de 3 que se encuentra detrás del valor de 10 y
luego el valor de 5. Debido a esto es que nuestra muestra no presenta ninguna moda
cuando se estudia como datos no agrupados ya que la mayor cantidad de gastos
máximos se concentran en los valores de 961 [m3/s] y 619 [m3/s]. Por tanto,
físicamente podríamos decir que lo más probable es que se hayan presentado dos
temporadas lluviosas al año, la primera entre abril y mayo, y la segunda de octubre a
noviembre.
En cuanto a los coeficientes de dispersión de ambas cuencas observamos que son
muy parecidas ya que ambas oscilan entre el valor de 0.3, lo anterior es porque una se
deriva de la otra. En este sentido podemos deducir que los valores de los gastos
máximos no varían mucho entre ellos y esto es muy útil para las planificaciones de
proyectos ya que los parámetros en los que se debe diseñar no serán grandes. Esto
nos lo reafirma el valor de la curtosis ya que en la cuenca 30151 es de 2.42 mientras
que en la cuenca 30140 es de 3.8, si bien los valores no son muy parecido en la
representación gráfica si lo son y eso es porque ambas presentan un comportamiento
leptocúrtico que se repite dos veces, es decir que hay mayor cantidad de gastos en dos
valores.
Los resultados obtenidos pueden servir como una línea de tendencia para evaluar y
estimar los posibles gastos futuros.
A veces es necesario hacer un estudio general de las condiciones de cada cuenca, ya
que si bien los datos para la cuenca 30151 indicaba una variabilidad de flujo bastante
alta al momento de realizar los cálculos necesarios el porcentaje de error resulta ser
considerablemente alto. Por lo que la medición y su estudio anual resulta ser muy
favorable para condiciones o características se ven afectadas por diversos factores.

Conclusión de regresión:
En conclusión, la regresión permite estimar la influencia de una o más variables
independientes sobre una variable dependiente, lo que proporciona una base para la
predicción y comprensión de los fenómenos estudiados. De las gráficas que se hicieron
para los 3 meses, se pudo estimar las mejores opciones de acuerdo a métricas como el
coeficiente de determinación o la forma de las gráficas. Nos proporcionó información
valiosa sobre la relación entre los gastos de las cuencas en los registros de la estación
hidrométrica 30140 a partir de la información de la EH 30151. En los tres casos
correspondientes a los meses de octubre, noviembre y diciembre, el modelo
linealizable escogido como mejor opción fue el potencial debido a que su coeficiente de
determinación fue mayor en comparación con los otros modelos. Al utilizar la regresión
es importante considerar el ajuste del modelo a los datos, evaluar la significancia
estadística de los coeficientes, utilizar medidas adicionales para evaluar la calidad y la
precisión del modelo.
La regresión no sólo ofrece la capacidad de hacer predicciones, sino que también
puede ayudar a identificar patrones, tendencias y relaciones en los datos. Sin embargo,
es esencial recordar que la regresión sólo establece una relación correlacional y no
implica necesariamente causalidad.
En resumen, la regresión es una herramienta valiosa para el análisis estadístico y la
modelización de relaciones entre variables, su aplicación adecuada y cuidadosa
permite obtener información útil y significativa, lo que contribuye a la comprensión y la
toma de decisiones en diversos campos, como la investigación científica, el análisis de
negocios y la planificación estratégica.
Al interpretar los datos nos podemos dar cuenta que la relación que existe entre la
cuenca 30151 y la subcuenca 30140 para los meses de de octubre, noviembre y
diciembre es mejor expresada mediante la función lineal pero al optar por otra función
en los tres casos la mejor función es la potencial.

Bibliografías
- Distribución de frecuencias. (2021, January 8). Estadística Descriptiva. Retrieved
April 25, 2023, from
https://www.uv.es/webgid/Descriptiva/3_distribucin_de_frecuencias.html
- Flores, G. (2020, July 9). Que es una distribución numérica? –
La-Respuesta.com. Retrieved April 25, 2023, from
https://la-respuesta.com/pautas/que-es-una-distribucion-numerica/
- Otzen, T., & Manterola, C. (2017). Técnicas de Muestreo sobre una Población a
Estudio. International Journal of Morphology, 35(1), 227–232.
https://doi.org/10.4067/s0717-95022017000100037

- De Tecnología Del Agua, I. M. (2020, 5 enero). ¿Qué es una cuenca? gob.mx.


Recuperado 25 de abril de 2023, de
https://www.gob.mx/imta/articulos/que-es-una-cuenca-211369
- Del Agua, C. N. (2021, 8 septiembre). ¿Sabes qué es una
#EstaciónHidrométrica? gob.mx. Recuperado 25 de abril de 2023, de
https://www.gob.mx/conagua/articulos/sabes-que-es-una-estacionhidrometrica?i
diom=es#:~:text=Las%20estaciones%20hidrom%C3%A9tricas%20son%20regla
s,las%20lluvias%20y%20los%20escurrimientos.

También podría gustarte