Está en la página 1de 4

Estimación del Índice de Calidad de Agua (ICA), mediante un

modelo de Regresión Lineal Múltiple (RLM)


Edgar Orlando Ladino Morenoa
a
Estudiante Doctorado en Ingeniería, Universidad Distrital Francisco José de Caldas, Colombia. eoladinom@udistrital.edu.co

Seminario de Investigación I.
Profesor: Ing. Jairo Humberto Torres Acosta, PhD, MSc.

Resumen: Se evalúa la capacidad del modelo de regresión lineal múltiple (RLM) para la predicción del Índice de Calidad
Agua (ICA) a partir de diferentes variables independientes (físico-químicas y biológicas) como lo son: Potencial hidrogenado
(Ph), grasas y aceites (GA), Sólidos Suspendidos (SS), Demanda Bioquímica de Oxigeno (DBO), alcalinidad (A) y coliformes
fecales (CF). De igual forma, se realiza el análisis de los residuos y la independencia de las variables observadas a partir del
estadístico de Durbin‐Watson determinando la bondad del pronóstico con base en el Error Cuadrático Medio (ECM). Se
realizó un análisis de correlación de Pearson entre todas las variables independientes. Finalmente, la capacidad del modelo
(RLM) se evaluó a partir del coeficiente de correlación múltiple y el coeficiente de determinación R 2.

Palabras claves: Regresión lineal múltiple (RLM), calidad de agua, DBO, SS, Ph y Durbin‐Watson.

de Durbin‐Watson (DW), el cual determina la correlación


1. Introducción serial de los residuales de la regresión. El estadístico (DW)
toma valores entre 0 y 4: alrededor de 2 indica no presencia
El Índice de Calidad de Agua (ICA) constituye un de correlación serial; cercano a 0 autocorrelación positiva;
parámetro fundamental en el desarrollo de sistemas de y, cercano a 4 autocorrelación negativa. Usualmente se
acueducto. La calidad de la fuente hídrica en términos considera que entre 1,5 y 2,5 debería existir independencia
físico-químicos y bilógicos determina el tipo de proceso entre los residuos (Onfilio et al, 2011).
de tratamiento y el diseño de las estructuras de
potabilización. El ICA depende de manera directa de
diferentes variables físico-químicas y bilógicas, las cuales 2. Índice de Calidad de Agua (ICA)
son medidas in situ y procesadas en laboratorio. Por lo
tanto, con el objeto de observar el comportamiento del El Índice de calidad del agua es el valor numérico que
ICA a partir del Ph, grasas y aceites, SS, DBO, alcalinidad califica en una de cinco categorías, la calidad del agua de
y coliformes fecales, se realizó un modelo de regresión una corriente superficial, con base en las mediciones
lineal múltiple (RLM), el cual permite calcular el obtenidas para un conjunto de cinco o seis variables,
comportamiento del ICA con base en las variables registradas en una estación de monitoreo j en el tiempo t
independientes observadas. (IDEAM). El ICA está definido como una técnica de
clasificación que contiene el efecto generado por un grupo
de parámetros de calidad del agua en un solo valor global
1. Regresión lineal múltiple (RLM) (Aly et al, 2014).

El modelo de regresión lineal múltiple está dado por una De hecho, la calidad del agua para consumo humano está
variable independiente (Y), un intercepto (𝛽0), y n vinculada al surgimiento de diferentes enfermedades
variables explicativas o independientes: infecciosas y parasitarias (Guzmán et al, 2015). El ICA se
implementa para determinar el grado de contaminación
𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝛽3 𝑋3 +. . . 𝛽𝑛 𝑋𝑛 (Jiménes &, 2006). Para predecir el valor del (ICA), en
(1)
este estudio se utilizó una serie de 20 datos para las
variables de Ph, grasas y aceites, SS, DBO, alcalinidad y
La aplicación de este modelo depende del
coliformes fecales. Se definió el ICA como variable
comportamiento homocedastico de la serie, de la
dependiente.
linealidad, la normalidad y la independencia de las
variables. Para esto es necesario implementar el estadístico

Universidad Distrital Francisco José de Caldas


Facultad de Ingeniería
Doctorado en Ingeniería
Estimación del Índice da Calidad de Agua (ICA), mediante un modelo de Regresión Lineal Múltiple (RLM).

3. Métodos y materiales de correlación múltiple igual a 0.9539, lo cual indica que


las variables ICA e (Ph, SS, GA, SS, DBO, A y CF) están
Para los 20 datos (Tabla 1.) de Ph, grasas y aceites, SS, relacionadas en realidad.
DBO, alcalinidad y coliformes fecales se realizó la
regresión lineal simple por mínimos cuadros para cada una A partir de los resultados de la tabla 4, y teniendo en
de las variables independientes, estableciendo el valor del cuenta el valor del estadístico R2, se obtuvo el modelo de
coeficiente de Pearson para determinar la relación lineal regresión lineal múltiple para el ICA, en función de las
entre las variables cuantitativas, midiendo de esta manera variables explicativas (Ph, SS, GA, SS DBO, A, CF) La
el grado de relación entre las mismas. ecuación (2), muestra el modelo seleccionado.

Grasas y Coliformes 𝑓(𝐼𝐶𝐴) = −0.549𝑃ℎ − 0.074𝐺𝐴 + 0.0276𝑆𝑆 + 0.0129𝐷𝐵𝑂 −


SS Alcalinidad
aceites DBO fecales 0.086𝐴 − 0.131𝐶𝐹 − 79.31
ICA Ph (2)
(mg/l
(mg/l) (mg/l) (mg/l) (NMP/100ml)
CaCo3)
81 5 12 24 6 40 20 Coeficientes
66 3 10 21 12 45 45 Intercepción 79.310
62 10 15 24 18 55 55 Ph -0.549
58 10 10 20 25 15 85 Grasas y aceites -0.074
55 9.5 8 30 45 25 100 SS 0.0276
63 7 4 24 35 12 95 DBO 0.0129
59 5.5 3 12 45 15 120 Alcalinidad -0.086
57 4.5 5 18 55 25 105 Coliformes fecales -0.131
55 7.5 12 25 78 35 155 Tabla 4. Coeficientes de regresión
50 3.5 8 12 120 45 185
48 8.5 25 25 140 45 205
47 5.5 45 35 155 55 195
Para evaluar la presencia de autocorrelación se utilizó el
50 5.5 95 78 165 75 105 estadístico de Durbin-Watson. La autocorrelación indica
41 2.5 105 100 205 15 255 que los errores de las observaciones inmediatas están
43 9.5 155 123 255 45 185 correlacionados. Si se evidencia correlación en la serie, es
71 1.5 55 45 10 15 25
69 2.5 45 25 5 2 55
posible que la regresión por mínimos cuadrados subestime
42 4.5 25 125 254 45 287 el error estándar de los coeficientes. Para la serie de datos
38 10.5 55 254 385 41 305 observados el valor del Durbin Watson fue igual a:
43 2.8 78 102 205 79 185
Tabla 1. Datos fisicoquímicos y biológicos
𝐷𝑊 = 0.6337

Para poder determinar la significativa y validar los Estadístico Durbin‐ Watson


supuestos en término de error, se calcularon los siguientes Sumatoria cuadrados residuales 224.4753
Estadísticos (Tabla 2 y 3): Sumatoria diferencia de cuadrados residuales 354.2264
Durbin‐ Watson 0.6337
Estadísticas de la regresión Tabla 5. Estadístico Durbin‐ Watson

Coeficiente de correlación múltiple 0.95397001


Coeficiente de determinación R^2 0.91005879 A continuación, se presentan las desviaciones de los
R^2 ajustado 0.86854746 valores observados de la variable del Índice de Calidad de
Error típico 4.15539755 Agua con respecto a la línea de regresión, para cada una
Observaciones 20
Tabla 2. Coeficientes de regresión
de las variables observadas. Tanto el modelo lineal
múltiple como las gráficas de residuos y regresiones
Grados Cuadrados Valor ajustadas se obtuvieron a partir de la herramienta de
F análisis de datos (Excel).
libertad Suma Promedio crítico F
Regresión 6 2271.32 378.554 21.92 4.303E-06
Residuos 13 224.475 17.2673
Total 19 2495.8
Tabla 3. Grados de libertad

El coeficiente de determinación indica que la variación


total del ICA es explicado por las variables (Ph, SS, GA,
SS, DBO, A y CF) con una aproximación de 0.91 Figura 1. Residuales Potencial hidrogenado
estableciendo representatividad del modelo lineal. Si el
coeficiente de correlación múltiple es menor a cero, se
establece una correlación negativa de las variables
observadas. Cuando el coeficiente de correlación múltiple
se aproxima a cero no existe correlación entre las
variables. Para el caso del ICA, se obtuvo un coeficiente

2
Estimación del Índice da Calidad de Agua (ICA), mediante un modelo de Regresión Lineal Múltiple (RLM).

Figura 2. Residuales Grasas y aceites


Figura 10. Regresión Demanda Bioquímica de Oxigeno

Figura 3. Residuales Sólidos suspendidos


Figura 10. Regresión Alcalinidad

Figura 4. Residuales Demanda Bioquímica de Oxigeno


Figura 11. Regresión Coliformes fecales

4. Resultados y discusión

Las variables (Ph, SS, GA, SS, DBO, A y CF), presentaron


un coeficiente de correlación múltiple igual a 0.9539, si
Figura 5. Residuales Alcalinidad
bien es cierto, este estadístico demuestra que existe
relación entre las variables observadas, el estadístico de
Durbin-Watson detecta una autocorrelación positiva lo
cual posiblemente determine una distribución
heterocedastica de la serie de datos físico-químicos y
biológicos.
Figura 6. Residuales Coliformes fecales
5. Conclusiones

El estadístico de Durbin‐Watson (DW), indica la


presencia de una autocorrelación positiva de la serie
observada, lo cual válida la hipótesis de la falta de
estacionariedad de las variables (Ph, SS, GA, SS, DBO, A
y CF), por lo cual se puede concluir que estas variables no
Figura 7. Regresión ajustada Ph
explican de manera significativa la variable ICA debido
principalmente a la autocorrelación mostrada por los
Mínimos Cuadrados Generalizados.

En términos de varianza se presenta un comportamiento


no constante de las variables observadas generando una
distribución heterocedastica de la serie, en este sentido se
Figura 8. Regresión Grasas y aceites
recomienda transforma los datos del ICA a partir de
mínimos cuadrados ponderados.

Referencias

Aly et al, A. A. (2014). The Water Quality Index and


Hydrochemical Characterization of Groundwater
Resources in Hafar Albatin. Arab. J. Geosci, 14.
Figura 9. Regresión Grasas y aceites

3
Estimación del Índice da Calidad de Agua (ICA), mediante un modelo de Regresión Lineal Múltiple (RLM).

Alea, V. et al. (1999) Estadística Aplicada a les Ciències


Econòmiques i Socials. Barcelona: Edicions McGraw-
Hill EUB.

Canavos, G. (1988) Probabilidad y Estadística. Aplicaciones y


Métodos. México: McGraw-Hill.

Dura Peiró, J. M. y López Cuñat, J.M. (1992) Fundamentos de


Estadística. Estadística Descriptiva y Modelos
Probabilísticos para la Inferencia. Madrid: Ariel
Editorial.

Fernández C., C., y Fuente G., F. (1995) Curso de Estadística


Descriptiva. Teoría y Práctica. Madrid: Ariel.

Freedman, D., et al. (1991) Estadística. Barcelona: A.Bosch Ed.

Guzmán et al, B. L. (2015). La calidad del agua para consumo


humano y su asociación con la morbimortalidad en
Colombia, 2008-2012. Scielo, 26.

Jiménes &, M. (2006). En este estudio se utilizó una serie de 20


datos para las variables de Ph, grasas y aceites, SS,
DBO, alcalinidad y coliformes fecales. Se definió el
ICA como variable dependiente. Aavances en recuros
hidráulicos, 35.

Onfilio et al, N. B. (2011). Análisis de los factores inductores de


los cambios ocurridos en la superficie forestal del
estado de México en el período 1993-2000. Boletín de
la Asociación de Geógrafos Españoles N.º 56, 13.

Soon PS, Y. S.-L. (2002). A water quality modeling study of the


Nakdong River. Norea: Ecological Modelling.