Tarea DOS Regresion Lineal Simple Grupo1

Universidad Nacional Autónoma
de México
Facultad de Ingeniería
División de ingeniería civil y geomática
Materia: Estadística aplicada a la ingeniería civil
Profesor: M.I. David Paniagua Lovera
Tarea 2: Regresión lineal simple
Grupo : 01
Integrantes:
Alvarez Mejia Itsuri Olinca

Arenas Bonilla Eduardo
García González Eduardo
Gutierrez Almeida Monserrath
Reyes Sainos Michelle Ariadna
Semestre: 2023-2
Fecha de entrega: 12 de Mayo del 2023

Objetivo
En este informe se presentan los resultados de un análisis muestral de los gastos
máximos para la estación hidrométrica 30151 que contenga distribución de frecuencias,
descripciones numéricas y descripciones gráficas, así como comparación de funciones
de probabilidad.
Aplicar los conocimientos adquiridos sobre el tema Estadística descriptiva para la
interpretación del comportamiento de la estación hidrométrica 30151.
Introducción
Las estaciones hidrométricas son puntos establecidos en los que se mide la cantidad
de agua disponible en cuerpos de agua originados por la lluvia y los escurrimientos,
como lo son ríos, arroyos, lagunas o embalses, dichas estaciones pueden estar
equipadas con regletas graduadas, sensores de medición, aforadores, entre otros.
Para las estaciones hidrométricas el personal capacitado se encarga de registrar los
niveles de agua en horas preestablecidas, durante una tormenta o el desfogue de una
presa. Al conocer la cantidad y la calidad de los recursos hídricos se realiza una mejor
distribución para el abastecimiento del agua potable municipal y la que se emplea para
la industria, la generación de energía hidroeléctrica e irrigación de los campos, entre
otras actividades.
Una cuenca hidrográfica es una zona de la superficie terrestre en donde las gotas de
lluvia que caen sobre ella tienden a ser drenadas por el sistema de corrientes hacia un
punto en común llamado punto de salida de la cuenca. Los límites de una cuenca están
constituidos naturalmente por lo que se conoce como “parteaguas” o “divisorias de
agua”, es decir, son las líneas imaginarias que unen las crestas de las elevaciones del
terreno, por cuyas laderas escurre el agua, hacia el cauce principal de salida de la
propia cuenca o hacia su centro, en caso de ser cerrada.
Muestra de estudio
Gastos máximos de las estaciones hidrométricas 30151 y 30140 correspondientes al
año 1965 hasta el año 1993.
Interpolar y extrapolar
Por diferentes problemas que se presentan en el proceso de tomar mediciones en las
estaciones hidrométricas es que en la muestra que se tomó de la estación 30140 no
existen datos para su estudio en los meses de septiembre, octubre, noviembre y
diciembre; por ello, es que se recurre a métodos de interpolación y extrapolación, es
decir, métodos que mediante valores de puntos conocidos obtener valores en puntos
desconocidos que se encuentren dentro o fuera de la muestra de análisis. En este caso
los puntos que conocemos son los de la estación 30151 y son estos los que nos serán
la base para obtener los valores que nos faltan.
Desarrollo
Tabla de distribución de frecuencias

Se muestra de forma ordenada un conjunto de datos estadísticos y a cada uno de ellos
le asigna una frecuencia que, son las veces que se repite un número o dato.
La realización de la tabla de frecuencias se hizo por medio de la siguiente metodología:
Las fronteras de clase se recorren media unidad de aproximación a la izquierda y a la
derecha. La marca de clase es el valor representativo de cada clase.
Las fórmulas utilizadas para las frecuencias son:
Frecuencia (fi): cantidad de datos pertenecientes a una clase.

𝑓
Frecuencia relativa (f*): 𝑓 *= 𝑛
𝑖
Frecuencia acumulada (F): 𝐹𝑖 = ∑ 𝑓𝑘
𝑘=1
𝐹
Frecuencia relativa acumulada (F*): 𝐹 *= 𝑛
Clase Límites de clase Fronteras de Marcas frecuencia Frecuencia frecuencia Frecuencia acumulada relativa,
(EXCLUYENTE) clase de clase, , fi acumulada, relativa, fi* Fi*
xi Fi
1 534 704 533.5 704.5 619 6 6 0.206896552 0.206896552
2 705 875 704.5 875.5 790 3 9 0.103448276 0.310344828
3 876 1046 875.5 1046.5 961 10 19 0.344827586 0.655172414
4 1047 1217 1046.5 1217.5 1132 5 24 0.172413793 0.827586207
5 1218 1388 1217.5 1388.5 1303 2 26 0.068965517 0.896551724
6 1389 1559 1388.5 1559.5 1474 3 29 0.103448276 1
Descripciones numéricas
Las descripciones numéricas son de tendencia central, dispersión y de forma.
Media aritmética(𝑥), que se obtiene cuando se suman todos los datos de un análisis
estadístico y se dividen por la cantidad total de datos.
𝑘 𝑛
(𝑥) : 𝑥=
1
𝑛
𝑗=1
( )
∑ 𝑥𝑗𝑓𝑗 DA y 𝑥=
1
𝑛 ( )
∑ 𝑥𝑖 DNA
𝑖=1
Media geométrica (G) mide la tasa de crecimiento porcentual promedio de algunas

series dadas, a través del tiempo.
𝐺 =
𝑛 𝑘
𝑖=1 (𝑥𝑖) DNA y 𝐺=
𝑛 𝑘
𝑗=1 (𝑥 ) DA
𝑓𝑗
𝑗
𝑛 𝑛
Media armónica (H): 𝐻= 𝑛 DNA y 𝐻= 𝑘 DNA
𝑖=1
∑ ( ) 1
𝑥𝑖
∑
𝑗=1
( ) 𝑓𝑗
𝑥𝑗
Mediana: 𝑥 = 𝑥 ( ) DNA
𝑛+1
2
∆1
Moda: Para DNA la muestra es a modal y 𝑥𝑚𝑜 = 𝐿𝑅 𝑖𝑛𝑓 + ∆1+∆2
𝑐 DA
{𝑥1:𝑥𝑖≤𝐶𝑝} {𝑥1:𝑥𝑖>𝐶𝑝}
Cuantiles (Cp, C(p)): 𝑛
≥𝑝 y 𝑛
≥1 − 𝑝 DNA
Datos no agrupados Datos agrupados Error %
Media aritmética, xa 961.0690 978.6897 1.83%
Media geométrica, G 923.15 944.0513 2.26%
Media armónica, H 884.7877 909.5612 2.80%
Medidas de Mediana, xmed 948.5000 1360.0000 43.38%

tendencia
central Moda, xmo #N/D 755.8000 #N/D
Relación media-moda-mediana #N/D 1366.82 #N/D
Decil, P10 541.0000 408.3200 -24.52%
Percentil, P25 822.0000 458.3000 -44.25%
Decil, D9 1408.0000 802.9000 -42.98%
Cuartil, Q3 1130.0000 642.2500 -43.16%
En la tabla anterior se muestra que los gastos promedios por año por la tanto se puede
tener un gasto estimado dado que el error es bajo, la probabilidad es bastante lógica.
Considerando que el análisis de los a través del tiempo muestra que los gastos
máximos prácticamente siempre se presentan
( )
Rango (R): 𝑅 = 𝑚𝑎𝑥 𝑥𝑖 − 𝑚𝑖𝑛 𝑥𝑖 ( ) DNA y 𝑅 = 𝐿2𝑘 − 𝐿1 DA
𝑘 𝑘
∑ |||𝑥𝑖 − 𝑥||| ∑ |||𝑥𝑗 − 𝑥|||𝑓𝑗
1 1
Desviación media (DM): 𝐷𝑀 = 𝑛
DNA y 𝐷𝑀 = 𝑛
DA
𝑖=1 𝑗=1
Σ|||𝑥𝑖 − 𝑥||| DNA y Σ|||𝑥𝑗 − 𝑥|||𝑓𝑗 DA

1 1
Desviación mediana (DMd): 𝐷𝑀𝑑 = 𝑛
𝐷𝑀𝑑 = 𝑛
2 2
Varianza (S2):
2
𝑆𝑛−1 =
1
𝑛−1 (
Σ 𝑥𝑖 − 𝑥 ) DNA y
2
𝑆𝑛−1 =
1
𝑛−1 (
Σ 𝑥𝑗 − 𝑥 𝑓𝑗 ) DA
2
Desviación estándar (típica): 𝑆𝑛 = 𝑆𝑛
𝑆
Coeficiente de variación (CV): 𝐶𝑉 =
|𝑥|
Rango intercuartílico: 𝑅𝑄 = 𝑄3 − 𝑄1
𝑄3−𝑄1
Rango semiintercuartílico: 𝑄 = 2
Rango percentil: 𝑅𝑃 = 𝑃90 − 𝑃10
Rango, R 1021.0000 1025.0000 0.39%
Desviación media, DM 210.4851 200.0761 -4.95%
Desviación mediana, DMd 210.0517 404.8966 92.76%
Varianza, (Sn-1)2 74261.1379 69645.4360 -6.22%
Medidas Desviación estándar, Sn-1 272.5090 263.9042 -3.16%

de dispersión
Desviación estándar con R, Sn-1 255.2500 256.2500 0.39%
Coeficiente de variación, CVn-1 0.2835 0.2697 -4.90%
Rango intercuartílico, RQ 308.0000 183.9500 -40.28%
Rango semi-intercuartílico, Q 154.0000 91.9750 -40.28%
Rango percentil, RP 867.0000 394.5800 -54.49%
𝑛 𝐾
Momento respecto al origen: 𝑀´𝑘 =
1
𝑛
∑ 𝑥𝑖
𝑖=1
𝑘
DNA y 𝑀´𝑘 =
1
𝑛 ( )
𝑘
∑ 𝑥𝑗 𝑓𝑗
𝑗=1
DA
𝑛 𝑘 𝐾 𝑘
Momento respecto a la media: 𝑀𝑘 =
1
𝑛 (
∑ 𝑥𝑖 − 𝑥
𝑖=1
) DNA y 𝑀𝑘 =
1
𝑛 ( )
∑ 𝑥𝑗 − 𝑥 𝑓𝑗
𝑗=1
DA
𝑚3
Coeficiente de asimetría (a3): 𝑎3 = 3
𝑠
𝑚4
Curtosis: 𝑎4 = 4
𝑠
Primer momento respecto al Origen, m'1 961.0690 978.6897 1.83%
Seg. momento respecto al Origen, m'2 995353.9655 1025077.3103 2.99%
Tercer momento respecto al Origen, m'3 1100671394.5172 1140073694.1379 3.58%

Medidas
de forma Cuarto momento respecto al Origen, m'4 1287908260078.2400 1335006829610.5500 3.66%
Primer momento respecto a la media, m1 0.0000 0.0000 #¡DIV/0!
Seg. momento respecto a la media, m2 71700.4090 67243.8692 -6.22%
Seg. momento respecto a la media, m2 71700.4090 67243.8692 -6.22%
Tercer momento respecto a la media, m3 6249512.6737 5219376.4254 -16.48%
Tercer momento respecto a la media, m3 6249512.6737 5219376.4254 -16.48%
Cuarto momento respecto a la media, m4 13389490110.3566 10678769977.6395 -20.25%
Cuarto momento respecto a la media, m4 13389490110.3569 10678769977.6392 -20.25%
Sesgo o coeficiente de asimetría, a3 0.3088 0.2840 -8.04%
Curtosis, a4 2.4280 2.2016 -9.32%
Descripciones gráficas:
Un histograma es un gráfico que se utiliza para representar la distribución de
frecuencias de algunos puntos de datos de una variable.
Los cálculos representativos para el histograma tomamos los datos de frecuencia y las
marcas de clase que es el Qmax anual si bien los histogramas frecuentemente
clasifican los datos de varios “Contenedores” o “grupos de rango”. Para el ejercicio
debemos de considerar que la marca de clase 3 con una frecuencia de 10 resulta ser la
mayor de todas las demás clases y la de menor grado es la marca de clase 5 con una
frecuencia de 2.
Los polígonos de frecuencia se obtienen al unir los puntos medios de cada rectángulo
del histograma correspondiente, la variable cuantitativa continua con una cualitativa o
cuantitativa discreta. La diferencia que se realiza entre la gráfica del histograma y el
polígono de frecuencia radica en que el primero toma en cuenta las frecuencias y las
marcas de clase; y la segunda requiere que se analice el comportamiento de la
frecuencia con el gasto anual máximo en cual vemos como la figura gráfica tiende a
subir en la marca 961 de gasto máximo anual con respecto a 10 de frecuencia; sin
embargo no es el único pico que presenta ya que en la marca 619 tambien presenta
otro pico con una frecuencia de 6.
En estadística,una Ojiva es un gráfico que muestra la curva de una función de

distribución acumulada. Los puntos trazados son el límite de la clase superior y la
frecuencia acumulativa correspondiente.
El gráfico de pastel se realiza con la frecuencia y las marcas de clase, permite
visualizar la distribución de datos en las marcas de clase. Se puede observar que en la
marca de clase 961 es en donde más se concentran los datos de gastos con un 35% y
la menor es la marca de clase 1303 con un 7%.
DIAGRAMA DE TALLO Y HOJAS Tallo Hojas
5 3,3,4
La unidad de la hoja es de 10
6 4,4,6
7 2
8 1,3,8,9
9 0,0,1,2,7,8,8
10 0,6
11 0,1,4,7
12 4,6
14 0,8
15 5
En general los 2 boxplot permiten visualizar y comparar la distribución y la tendencia

central de valores numéricos mediante sus cuartiles, es una forma de presentación
estadística destinada, fundamentalmente, a resaltar aspectos de la distribución de las
observaciones en una o más series de datos cuantitativos.
Es una representación visual que muestra una distribución de datos, normalmente
entre grupos, basada en un resumen de cinco números: el mínimo, el primer cuartil, la
mediana (segundo cuartil), el tercer cuartil y el máximo.
La Bloxpot II es una presentación horizontal de la Bloxpot I ya que su forma de

distribución es la misma (el mínimo, el primer cuartil, la mediana (segundo cuartil), el
tercer cuartil y el máximo). En ambas representaciones nos podemos dar cuenta que
más del 75% de los gastos máximos anuales tiene un valor por encima de 800 [m3/s].
La media que se observa tiene una valor aproximado de 926 [m3/s].
Función de probabilidad
Para la gráfica de función de probabilidad se tienen como 3 datos distintos graficados.
Por la función Normal podemos observar que la mayor cantidad de gastos máximos se
encuentran en el rango de 600 y 1100 [m3/s]. La función Empírica nos muestra que la
mayor cantidad de gastos máximos se encuentran en el rango de 500 y 961 [m3/s].
Mientras que la función Gumbel presenta que la mayor cantidad de gastos máximos se
encuentran en el rango de 315 y 791 [m3/s].
En base al comportamiento de los datos se optó por preferir la función Normal ya que
esta muestra una mejor representación de nuestros datos para su interpretación, ya
que, es la gráfica en la que mejor se visualiza que los valores más repetidos se
encuentran cerca del valor de 961, igual que lo muestra los Diagramas de cajas y
bigotes.
Para lograr una correcta forma de interpretar los datos de ambas estaciones fue
necesario obtener todas mediciones,esto es importante ya que todos los datos deben
de estar completos ya que si faltan algunos datos ( aunque sean solo de uno o varios
días ) el estudio no será correcto y por lo tanto no se puede tomar como válido.
Entonces en los casos donde no había medición de datos se obtuvieron mediante un
proceso de interpolación y extrapolación mediante la creación de diversas relaciones
(función matemática) entre las estaciones para después pasar por un proceso de
regresión lineal simple y un proceso de regresión simple con modelos linealizables. A
pesar de que este modelo es útil también arrastra ciertas limitaciones ya que la
regresión lineal simple establece que existe una relación entre las variables, pero no
revela una relación causal: Y depende de un algo, pero no implica que genere a Y
Las funciones que se consideraron son las siguientes:
Regresión Lineal Simple

Realizar el relleno y extensión de registros de la estación hidrométrica 30140 a partir de
la información de la EH 30151
Los datos con los que contamos son los gastos medidos de las estaciones
hidrométricas 30140 y 30150 a partir del año de 1965 hasta el año de 1993 para los
meses de octubre, noviembre y diciembre.
Para realizar el cálculo de regresión lineal se deben contemplar los datos obtenidos
para cada estación de cada cuenca pero también observamos que hay datos que faltan
para poder realizar un muestreo completo por lo que se debe de realizar un relleno
extrapolado e extrapolado para cada mes y de esta forma poder tomar en cuenta los
datos que no se tenían por cualquier circunstancia que fuera.
Tomando los datos de la cuenca 30151 para x y los datos de 30141 para y se realiza
una sumatoria de los datos.
Con lo que podremos obtener el valor de Xmedia utilizando la fórmula siguiente:
Σ𝑋
𝑋𝑀𝑒𝑑𝑖𝑎 = 𝑛
Σ𝑌
Para el valor de Ymedia utilizamos la siguiente expresión: 𝑌 = 𝑛
𝑀𝑒𝑑𝑖𝑎
El valor de n es la suma de todos los caracteres contemplados tanto para X y Y es el

mismo.
Con los resultados obtenidos de Xmedia y Ymedia se realiza el cálculo para cada dato
2
utilizando la siguiente expresión (𝑋 − 𝑋𝑀𝑒𝑑𝑖𝑎) y consecuentemente también se
prosigue a realizar la sumatoria de todos los resultados obtenidos. En base a la anterior

2
se prosigue a utilizar las siguientes expresiones (𝑌 − 𝑌𝑀𝑒𝑑𝑖𝑎) y
[(𝑋 − 𝑋𝑀𝑒𝑑𝑖𝑎) * (𝑌 − 𝑌𝑀𝑒𝑑𝑖𝑎)].
Para el resultado de la Varianza en X se usa la siguiente expresión

2
Σ(𝑋 − 𝑋𝑀𝑒𝑑𝑖𝑎)
𝑣𝑎𝑟𝑋 = 𝑛
2
Σ(𝑌 − 𝑌𝑀𝑒𝑑𝑖𝑎)
Para el resultado de la Varianza en Y → 𝑣𝑎𝑟𝑌 = 𝑛
Σ[(𝑋 − 𝑋𝑀𝑒𝑑𝑖𝑎)*(𝑌 − 𝑌𝑀𝑒𝑑𝑖𝑎)]

Para el resultado de la Covarianza en X,Y → 𝐶𝑂𝑉(𝑋, 𝑌) = 𝑛
𝐶𝑂𝑉(𝑋,𝑌)
Coeficiente de correlación → 𝑅 =
𝑣𝑎𝑟(𝑋)*𝑣𝑎𝑟(𝑌)
2
2 𝐶𝑂𝑉 (𝑋,𝑌)
Coeficiente de determinación → 𝑅 = 𝑣𝑎𝑟(𝑋)*𝑣𝑎𝑟(𝑌)
→ Caso lineal.
𝐶𝑂𝑉(𝑋,𝑌)
β1 = 𝑣𝑎𝑟(𝑋)
; β0 = 𝑌𝑀𝑒𝑑𝑖𝑎 − β1 * 𝑋𝑀𝑒𝑑𝑖𝑎
De manera exponencial
β𝑥
𝑦 = α𝑒
𝑙𝑛(𝑦) = 𝑙𝑛 (α𝑒
β🇽)
𝑙𝑛(𝑦) = 𝑙𝑛(α) + 𝑙𝑛(𝑒
🇽)
β
𝑙𝑛 (𝑦) = 𝑙𝑛(α)+βx
𝑦´ = β0´ + β1´𝑥´
𝑦´ = 𝑙𝑛|𝑥|
𝑥´ = 𝑥´
β0´
β0´ = 𝑙𝑛 (𝑥´) ; α =𝑒
β1´ = β0
De manera logarítmica
𝑦´ = β1´𝑥´ + β0´
𝑦 = β 𝑙𝑛 (𝑥) + α
𝑦´ = 𝑦
𝑥´ = 𝑙𝑛 (𝑥)
β1´ = β
β0´ = α
Con respecto a cada valor de la R cuadrada que varía en función de la complejidad del
modelo. Fue una medida útil para evaluar cómo se ajustaba el modelo a la relación de
los registros y qué tan bien se ajusta un modelo de regresión a los datos observados
para finalmente elegir la mejor opción.
Rellenado de mes de octubre
a) Regresión lineal simple
Q30151 Q30140
Relleno extrapolado e interpolado
x y
327 154.826423 xmedia 242.23045
291 135.041143 ymedia 108.237832
273 125.148503 n 867
249 111.958316 var(x) 20854.3014
231 102.065676 var(y) 7007.11393
228 100.416903 cov(x,y) 11461.3388
220 96.0201739 β0 -24.8898715
311 146.032965 β1 0.54959112
288 133.39237 r 0.94813011
234 103.71445 R2 0.8989507
208 89.4250805
193 81.1812138
204 87.226716
187 77.8836671
169 67.991027
171 69.0902092
181 74.5861204
166 66.3422537
171 69.0902092
287 132.842779
315 148.23133
285 131.743596
217 94.3714005
187 77.8836671
181 74.5861204
169 67.991027
196 82.8299871
222 97.1193561
266 121.301365
323 152.628059
273 125.148503
Gráfica 1.1 En esta gráfica se usa una función lineal para comparar los gastos en X y Y.
Gráfica 1.2 Y finalmente se rellenan los valores faltantes con la regresión lineal calculada y se usa la
función lineal para comparar esos mismos datos en X y Y con los rellenados.
b) Regresión simple con modelos linealizables (Potencia), Elegimos este modelo

también pues
Para realizar la regresión simple con el modelo linealizable de potencia se
realiza la siguiente analogía:
β
𝑦 = α𝑥 𝑎𝑝𝑙𝑖𝑐𝑎𝑛𝑑𝑜 𝑙𝑛 𝐷𝑜𝑛𝑑𝑒:
β
(
𝑙𝑛(𝑦) = 𝑙𝑛 α · 𝑥 ) 𝑦´ = 𝑙𝑛(𝑦)
𝑙𝑛(𝑦) = 𝑙𝑛(α) + 𝑙𝑛 𝑥 ( β) 𝑥´ = 𝑙𝑛(𝑥)

𝑙𝑛(𝑦) = 𝑙𝑛(α) + β 𝑙𝑛(𝑥) β0´ = 𝑙𝑛(α)
β1´ = β
Q30151 Q30140
x y
327 144.874241 xmedia 5.35718048
291 127.298113 ymedia 4.49597256

273 118.596756 n 867
249 107.092479 var(x) 0.24487974
231 98.5426051 var(y) 0.32947251
228 97.1245177 cov(x,y) 0.27153815
220 93.3529409 β0 -1.44440807
311 137.035146 β1 1.10886326
288 125.843714 r 0.95597126
234 99.9626989 R2 0.91388105
208 87.7236756 α 0.23588566
193 80.7369023 β 1.10886326
204 85.8549996
187 77.9584586
169 69.6824269
171 70.5974314
181 75.1897045
166 68.3121329
171 70.5974314
287 125.359279
315 138.990891
285 124.390963
217 91.9424159
187 77.9584586
181 75.1897045
169 69.6824269
196 82.129673
222 94.2944566
266 115.229509
323 142.910469
273 118.596756
Gráfica 2.1 En esta gráfica se usa una función potencial para comparar los gastos en X y Y.
Gráfica 2.2 En esta gráfica se usa una función lineal para comparar los gastos en X y Y ya
transformados por una constante de logaritmo natural(Ln), se puede proporcionar una idea visual
de la calidad del ajuste. Si los puntos se agrupan alrededor de una línea o curva que representa el
modelo, indica un buen ajuste.
Gráfica 2.3 Y finalmente se rellenan los valores faltantes con la regresión calculada y se usa la
función potencial para comparar esos mismos datos en X y Y con los rellenados, el coeficiente de
correlación es de los mejores y más cercano a 1, lo que indica un buen ajuste, Sin embargo, la R
cuadrada por sí sola no es suficiente y debe combinarse con otras técnicas de evaluación
Rellenado mes de noviembre

Q30151 Q30140
x y
242 120.3923 xmedia 134.1356
212 104.2577 ymedia 62.38071
192 93.50134 n 840
176 84.89623 var(x) 6374.659
171 82.20713 var(y) 2196.66
176 84.89623 cov(x,y) 3428.419
212 104.2577 β0 -9.76008
181 87.58533 β1 0.53782
159 75.75329 r 0.916187

151 71.45073 R2 0.839398
146 68.76163
142 66.61035
135 62.84561
132 61.23215
132 61.23215
129 59.61869
124 56.92959
121 55.31613
126 58.00523
324 164.4936
357 182.2416
278 139.7539
223 110.1738
197 96.19044
225 111.2494
242 120.3923
206 101.0308
181 87.58533
181 87.58533
214 105.3334
281 141.3673
Gráfica 3.1. En esta gráfica se usa una función lineal para comparar los gastos en X y Y.
Gráfica 3.2 Y finalmente se rellenan los valores faltantes con la regresión lineal calculada y se usa la
función lineal para comparar esos mismos datos en X y Y con los rellenados.
b) Regresión simple con modelos linealizables ( Potencial)
Q30151 Q30140
x y
242 91.58349 xmedia 4.792125
212 83.27626 ymedia 4.016628
192 77.55381 n 840
176 72.85411 var(x) 0.199149
171 71.36111 var(y) 0.172986
176 72.85411 cov(x,y) 0.143078
212 83.27626 β0 0.573743
181 74.33522 β1 0.718447
159 67.72662 r 0.770865
151 65.2607 R2 0.594232
146 63.70083 α 1.774898
142 62.44208 β 0.718447
135 60.21493
132 59.25054
132 59.25054
129 58.27995
124 56.64803
121 55.66
126 57.30298
324 112.9446
357 121.0958
278 101.1786
223 86.35844
197 78.99955
225 86.91419
242 91.58349
206 81.57614
181 74.33522
181 74.33522
214 83.83995
281 101.9619
Gráfica 4.1 En esta gráfica se usa una función potencial para comparar los gastos en X y Y.
Gráfica 4.2 En esta gráfica se comparan los gastos medidos y el modelo linealizable potencial en X y Y.
Gráfica 4.3. En esta gráfica se usa una función exponencial para comparar los gastos medidos y
rellenados en X y Y.
Rellenado mes de diciembre
Q30151 Q30140
x y
303 172.1024 xmedia 102.3467
261 146.3808 ymedia 49.21878
234 129.8456 n 868
214 117.5972 var(x) 6360.082
192 104.124 var(y) 5227.43
175 93.71294 cov(x,y) 3895.024
162 85.75152 β0 -13.4601
156 82.07701 β1 0.612417
148 77.17768 r 0.675515
140 72.27834 R2 0.45632
134 68.60383
139 71.66592
146 75.95284
139 71.66592
131 66.76658
124 62.47966
121 60.64241
118 58.80516
117 58.19274
113 55.74307
110 53.90582
110 53.90582
107 52.06857
106 51.45615
101 48.39406
96.1 45.39322
94.6 44.47459
93 43.49472
91.4 42.51486
89.9 41.59623
88.3 40.61636
Gráfica 5.1. En esta gráfica se usa una función exponencial para comparar los gastos en X y Y.
Gráfica 5.2 En esta gráfica se comparan los datos medidos y el modelo lineal.
b) Regresión simple con modelos linealizables (Potencia)
Q30151 Q30140
x y
303 104.7568 xmedia 4.516836
261 93.88234 ymedia 3.772496
234 86.6462 n 868
214 81.14253 var(x) 0.191214
192 74.92788 var(y) 0.158611
175 69.99537 cov(x,y) 0.140451
162 66.13722 β0 0.454787
156 64.329 β1 0.734521
148 61.88902 r 0.806486
140 59.41374 R2 0.65042
134 57.53259 α 1.575838
139 59.10172 β 0.734521
146 61.2736
139 59.10172
131 56.58366
124 54.34668
121 53.37777
118 52.40246
117 52.0759
113 50.76215
110 49.76874
110 49.76874
107 48.7681
106 48.4329
101 46.74412
96.1 45.06743
94.6 44.54966
93 43.99496
91.4 43.43772
89.9 42.91295
88.3 42.35063
Gráfica 6.1. En esta gráfica se usa una función lineal para comparar los gastos en X y Y.
Gráfica 6.2 En esta gráfica se comparan los datos rellenados y los medidos con el modelo
linealizable potencial.
Gráfica 6.3 En esta gráfica se comparan los gastos medidos y el modelo linealizable potencial.
Conclusiones:
El objetivo del presente trabajo fue analizar el comportamiento de gastos de la Cuenca
30151 que contiene los gastos máximos de cada año en el periodo de 1965 a 1993 se
observó que el gasto máximo fue de 1557 [m3/s], valor que se debe tomar en cuenta
para proyectos relacionados con inundaciones. En general los valores indicarían una
variabilidad del flujo valor bastante alto pues observado el más bajo fue de 536 [m3/s],
el cual, tuvo una mayor frecuencia que el máximo, por lo tanto será un parámetro para
aquellas obras o proyectos que estén relacionados con temas de sequía en la zona.
La moda resultó con un valor de 755.8 (con datos agrupados); esto podría significar
que existen dos mecanismos de precipitación, uno de lluvia ciclónica y otro de lluvia
holográfica, en este sentido, deben ser estos los valores que se deberán utilizar para
cualquier obra Hidráulica desarrollada en la región siempre y cuando considere que
debe estar capacitada para poder manejar los valores mínimo y máximo antes
mencionado.
Hay que resaltar que la muestra tiene dos frecuencias altas que se observan como dos
picos en el Polígono de frecuencias, una con 961 y otra con 619 con los valores de 10
y 6. Este comportamiento se debe al orden en el que se encuentran las frecuencias ya
que al valor de 6 lo secunda el valor de 3 que se encuentra detrás del valor de 10 y
luego el valor de 5. Debido a esto es que nuestra muestra no presenta ninguna moda
cuando se estudia como datos no agrupados ya que la mayor cantidad de gastos
máximos se concentran en los valores de 961 [m3/s] y 619 [m3/s]. Por tanto,
físicamente podríamos decir que lo más probable es que se hayan presentado dos
temporadas lluviosas al año, la primera entre abril y mayo, y la segunda de octubre a
noviembre.
En cuanto a los coeficientes de dispersión de ambas cuencas observamos que son
muy parecidas ya que ambas oscilan entre el valor de 0.3, lo anterior es porque una se
deriva de la otra. En este sentido podemos deducir que los valores de los gastos
máximos no varían mucho entre ellos y esto es muy útil para las planificaciones de
proyectos ya que los parámetros en los que se debe diseñar no serán grandes. Esto
nos lo reafirma el valor de la curtosis ya que en la cuenca 30151 es de 2.42 mientras
que en la cuenca 30140 es de 3.8, si bien los valores no son muy parecido en la
representación gráfica si lo son y eso es porque ambas presentan un comportamiento
leptocúrtico que se repite dos veces, es decir que hay mayor cantidad de gastos en dos
valores.
Los resultados obtenidos pueden servir como una línea de tendencia para evaluar y
estimar los posibles gastos futuros.
A veces es necesario hacer un estudio general de las condiciones de cada cuenca, ya
que si bien los datos para la cuenca 30151 indicaba una variabilidad de flujo bastante
alta al momento de realizar los cálculos necesarios el porcentaje de error resulta ser
considerablemente alto. Por lo que la medición y su estudio anual resulta ser muy
favorable para condiciones o características se ven afectadas por diversos factores.
Conclusión de regresión:
En conclusión, la regresión permite estimar la influencia de una o más variables
independientes sobre una variable dependiente, lo que proporciona una base para la
predicción y comprensión de los fenómenos estudiados. De las gráficas que se hicieron
para los 3 meses, se pudo estimar las mejores opciones de acuerdo a métricas como el
coeficiente de determinación o la forma de las gráficas. Nos proporcionó información
valiosa sobre la relación entre los gastos de las cuencas en los registros de la estación
hidrométrica 30140 a partir de la información de la EH 30151. En los tres casos
correspondientes a los meses de octubre, noviembre y diciembre, el modelo
linealizable escogido como mejor opción fue el potencial debido a que su coeficiente de
determinación fue mayor en comparación con los otros modelos. Al utilizar la regresión
es importante considerar el ajuste del modelo a los datos, evaluar la significancia
estadística de los coeficientes, utilizar medidas adicionales para evaluar la calidad y la
precisión del modelo.
La regresión no sólo ofrece la capacidad de hacer predicciones, sino que también
puede ayudar a identificar patrones, tendencias y relaciones en los datos. Sin embargo,
es esencial recordar que la regresión sólo establece una relación correlacional y no
implica necesariamente causalidad.
En resumen, la regresión es una herramienta valiosa para el análisis estadístico y la
modelización de relaciones entre variables, su aplicación adecuada y cuidadosa
permite obtener información útil y significativa, lo que contribuye a la comprensión y la
toma de decisiones en diversos campos, como la investigación científica, el análisis de
negocios y la planificación estratégica.
Al interpretar los datos nos podemos dar cuenta que la relación que existe entre la
cuenca 30151 y la subcuenca 30140 para los meses de de octubre, noviembre y
diciembre es mejor expresada mediante la función lineal pero al optar por otra función
en los tres casos la mejor función es la potencial.
Bibliografías
- Distribución de frecuencias. (2021, January 8). Estadística Descriptiva. Retrieved
April 25, 2023, from
https://www.uv.es/webgid/Descriptiva/3_distribucin_de_frecuencias.html
- Flores, G. (2020, July 9). Que es una distribución numérica? –
La-Respuesta.com. Retrieved April 25, 2023, from
https://la-respuesta.com/pautas/que-es-una-distribucion-numerica/
- Otzen, T., & Manterola, C. (2017). Técnicas de Muestreo sobre una Población a
Estudio. International Journal of Morphology, 35(1), 227–232.
https://doi.org/10.4067/s0717-95022017000100037
- De Tecnología Del Agua, I. M. (2020, 5 enero). ¿Qué es una cuenca? gob.mx.

Recuperado 25 de abril de 2023, de
https://www.gob.mx/imta/articulos/que-es-una-cuenca-211369
- Del Agua, C. N. (2021, 8 septiembre). ¿Sabes qué es una
#EstaciónHidrométrica? gob.mx. Recuperado 25 de abril de 2023, de
https://www.gob.mx/conagua/articulos/sabes-que-es-una-estacionhidrometrica?i
diom=es#:~:text=Las%20estaciones%20hidrom%C3%A9tricas%20son%20regla
s,las%20lluvias%20y%20los%20escurrimientos.

Tarea DOS Regresion Lineal Simple Grupo1

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tarea DOS Regresion Lineal Simple Grupo1

Cargado por

Copyright:

Formatos disponibles

Universidad Nacional Autónoma

Materia: Estadística aplicada a la ingeniería civil

Profesor: M.I. David Paniagua Lovera

Tarea 2: Regresión lineal simple

Alvarez Mejia Itsuri Olinca

Fecha de entrega: 12 de Mayo del 2023

Tabla de distribución de frecuencias

Frecuencia (fi): cantidad de datos pertenecientes a una clase.

2 705 875 704.5 875.5 790 3 9 0.103448276 0.310344828

3 876 1046 875.5 1046.5 961 10 19 0.344827586 0.655172414

4 1047 1217 1046.5 1217.5 1132 5 24 0.172413793 0.827586207

5 1218 1388 1217.5 1388.5 1303 2 26 0.068965517 0.896551724

6 1389 1559 1388.5 1559.5 1474 3 29 0.103448276 1

Media geométrica (G) mide la tasa de crecimiento porcentual promedio de algunas

Datos no agrupados Datos agrupados Error %

Media aritmética, xa 961.0690 978.6897 1.83%

Media geométrica, G 923.15 944.0513 2.26%

Media armónica, H 884.7877 909.5612 2.80%

Medidas de Mediana, xmed 948.5000 1360.0000 43.38%

Relación media-moda-mediana #N/D 1366.82 #N/D

Decil, P10 541.0000 408.3200 -24.52%

Percentil, P25 822.0000 458.3000 -44.25%

Decil, D9 1408.0000 802.9000 -42.98%

Cuartil, Q3 1130.0000 642.2500 -43.16%

Σ|||𝑥𝑖 − 𝑥||| DNA y Σ|||𝑥𝑗 − 𝑥|||𝑓𝑗 DA

Rango percentil: 𝑅𝑃 = 𝑃90 − 𝑃10

Datos no agrupados Datos agrupados Error %

Rango, R 1021.0000 1025.0000 0.39%

Desviación media, DM 210.4851 200.0761 -4.95%

Desviación mediana, DMd 210.0517 404.8966 92.76%

Varianza, (Sn-1)2 74261.1379 69645.4360 -6.22%

Medidas Desviación estándar, Sn-1 272.5090 263.9042 -3.16%

Coeficiente de variación, CVn-1 0.2835 0.2697 -4.90%

Rango intercuartílico, RQ 308.0000 183.9500 -40.28%

Rango semi-intercuartílico, Q 154.0000 91.9750 -40.28%

Rango percentil, RP 867.0000 394.5800 -54.49%

Datos no agrupados Datos agrupados Error %

Primer momento respecto al Origen, m'1 961.0690 978.6897 1.83%

Seg. momento respecto al Origen, m'2 995353.9655 1025077.3103 2.99%

Tercer momento respecto al Origen, m'3 1100671394.5172 1140073694.1379 3.58%

Primer momento respecto a la media, m1 0.0000 0.0000 #¡DIV/0!

Seg. momento respecto a la media, m2 71700.4090 67243.8692 -6.22%

Seg. momento respecto a la media, m2 71700.4090 67243.8692 -6.22%

Tercer momento respecto a la media, m3 6249512.6737 5219376.4254 -16.48%

Tercer momento respecto a la media, m3 6249512.6737 5219376.4254 -16.48%

Cuarto momento respecto a la media, m4 13389490110.3566 10678769977.6395 -20.25%

Cuarto momento respecto a la media, m4 13389490110.3569 10678769977.6392 -20.25%

Sesgo o coeficiente de asimetría, a3 0.3088 0.2840 -8.04%

Curtosis, a4 2.4280 2.2016 -9.32%

En estadística,una Ojiva es un gráfico que muestra la curva de una función de

En general los 2 boxplot permiten visualizar y comparar la distribución y la tendencia

La Bloxpot II es una presentación horizontal de la Bloxpot I ya que su forma de

Las funciones que se consideraron son las siguientes:

Regresión Lineal Simple

El valor de n es la suma de todos los caracteres contemplados tanto para X y Y es el

prosigue a realizar la sumatoria de todos los resultados obtenidos. En base a la anterior

[(𝑋 − 𝑋𝑀𝑒𝑑𝑖𝑎) * (𝑌 − 𝑌𝑀𝑒𝑑𝑖𝑎)].

Para el resultado de la Varianza en X se usa la siguiente expresión

Σ[(𝑋 − 𝑋𝑀𝑒𝑑𝑖𝑎)*(𝑌 − 𝑌𝑀𝑒𝑑𝑖𝑎)]

Relleno extrapolado e interpolado

327 154.826423 xmedia 242.23045

291 135.041143 ymedia 108.237832