Está en la página 1de 35

ANÁLISIS DEL COMPORTAMIENTO DEL ÍNDICE DE LA CALIDAD DEL AIRE USANDO

TÉCNICAS DE MINERÍA DE DATOS EN LA ZONA CARBONÍFERA DEL DEPARTAMENTO


DEL CESAR

ÁVILA QUINTERO LUIS FELIPE


RODRÍGUEZ DE LA HOZ ALAIN FRANCISCO

Director
VANESSA PAOLA BLANCO VILLAFAÑE
Ingeniera de Sistemas
Msc. Ingeniería de Sistemas y Computación
AGENDA

1 INTRODUCCIÓN

2 PLANTEAMIENTO DEL PROBLEMA

3 OBJETIVOS DEL PROYECTO

4 METODOLOGÍA

5 PRESENTACIÓN DEL PROYECTO DESARROLLADO

6 CONCLUSIONES
INTRODUCCIÓN

La contaminación del aire está


constituida por una mezcla
compleja de contaminantes debido
a la variedad de fuentes de emisión
de éstos, lo cual hace difícil el
estudio de sus efectos en salud. Así
mismo, una vez en la atmósfera, los
contaminantes generados por las
distintas fuentes se transforman y
son afectados por diversas variables
meteorológicas como la
temperatura y la humedad.
PLANTEAMIENTO DEL PROBLEMA

PROBLEMATICA

Falta de datos para toma de decisiones.

Pocas herramientas tecnológicas para el estudio estadístico

Información desorganizada

Bancos de datos sin explorar


OBJETIVOS DEL PROYECTO

• Desarrollar un modelo de minería de datos para el análisis del


comportamiento de la calidad del aire en la zona carbonífera del
OBJETIVO departamento del cesar.
GENERAL

• Construir un conjunto de datos de las variables meteorológicas y del Índice de Calidad del Aire de
acuerdo con los datos suministrados por la Corporación Autónoma Regional del Cesar -
CORPOCESAR.
• Crear un modelo descriptivo de minería de datos para analizar el comportamiento del índice de
calidad del aire en la zona carbonífera del departamento del Cesar.
• Encontrar predictores para el análisis del comportamiento del índice de calidad del aire en la
OBJETIVOS zona carbonífera del departamento del Cesar, basados en la aplicación de una técnica de minería
ESPECIFICOS de datos.
• Generar un informe de resultados para la divulgación de los hallazgos encontrados de las
técnicas de minería de datos aplicadas en el análisis del comportamiento del índice de calidad
del aire.
METODOLOGÍA CRISP-DM

Entendimiento Comprensión
del Negocio de los datos

Preparación
de los datos Modelado

Evaluación Implementación
FASE I: ENTENDIMIENTO DEL NEGOCIO

OBJETIVOS DEL NEGOCIO VALORACIÓN DE LA SITUACIÓN OBJETIVOS MINERÍA DE DATOS


• Monitorear el • Según el IDEAM en el Informe • Los objetivos están
comportamiento de los del estado de la calidad del encaminados como primera
índices de calidad del aire en aire en Colombia medida, a la elaboración de
el Cesar. comprendidos entre los años un conjunto de datos, usando
• Gestionar los recursos 2011 a 2015, se conoce que el los datos de las variables
asignados a la planificación material particulado PM10 y meteorológicas y los agentes
ambiental estratégica. PM2.5 fueron monitoreados contaminantes recopilados
• Idear planes y proyectos en más del 80% de las durante los años 2018 y 2019,
enfocados al desarrollo estaciones de calidad del aire a través del monitoreo de las
sostenible del medio del país, corresponde al estaciones de Sistemas de
ambiente en el contaminante con mayor Vigilancia de Calidad de Aire
Departamento. seguimiento en sus tiempos (SVCA) del corregimiento de
• Realizar la evaluación, control de exposición tanto diarios La Loma de Calenturas.
y seguimiento ambiental de como anuales.
actividades de explotación.
FASE II: COMPRENSIÓN DE LOS DATOS

• RECOLECCIÓN DE DATOS INICIALES • DESCRIPCIÓN DE LOS DATOS


Los datos han sido recolectados del laboratorio Nombre TIPO DE VARIABLE
de monitoreo de la estación ZM3- La Loma2 del Fecha Cualitativa – Ordinal
Sistema de Vigilancia de Calidad del Aire de la PST Cuantitativa – Continua
PM10 Cuantitativa – Continua
Corporación Autónoma Regional del Cesar PM2.5 Cuantitativa – Continua
“CORPOCESAR”, del periodo del 03 de Marzo Dirección del viento Cuantitativa – Continua
del 2018 al 31 de Diciembre del 2019 y fueron Velocidad del viento Cuantitativa – Continua
Humedad Cuantitativa – Continua
proporcionados en formato .xlsx, con el nombre Temperatura Cuantitativa – Continua
de la base de datos ZM3LOMA2. Radiación Solar Cuantitativa – Continua
Precipitación Cuantitativa – Continua
Presión Atmosférica Cuantitativa – Continua
EXPLORACIÓN DE LOS DATOS
Concentración del contaminante PM10 en horas para cada
día con respecto a la dirección del viento
Concentración del contaminante PM2.5 durante los años 2018
y 2019
VERIFICACIÓN DE DATOS DE CALIDAD

Detección de datos faltantes

Detección de datos atípicos

Detección de datos inválidos


FASE III: PREPARACIÓN DE LOS DATOS

Selección de los datos Limpieza de los datos


• PM10 • Eliminación de filas
• PM2.5 donde se encontraron
• Dirección del viento datos faltantes.
• Velocidad del viento • Reemplazo de datos
• Humedad atípicos por el valor
• promedio.
Temperatura • Eliminación de filas
• Precipitación donde se encuentren
• Presión atmosférica los datos inválidos.
FASE III: PREPARACIÓN DE LOS DATOS

PM10 ESCALA ICA •  CONSTRUCCIÓN DE NUEVOS


Indicaciones DATOS
Concentración Rango ICA
para la salud

0-54 0-50 Buena


55-154 51-100 Moderada
155-254 101-150 Dañina GS
255-354 151-200 Dañina Salud

355-424 200-300 Muy Dañina Ejemplo:


425-604 301+ Peligrosa Valor contaminante PM10= 60,67
Fuente: Agencia de
Protección Ambiental e
IDEAM
CONJUNTO DE CONJUNTO DE
DATOS SIN ETL DATOS DESPUÉS DEL
ETL
ATRIBUTOS
Fecha
ATRIBUTOS DATOS INICIALES VS DATOS FINALES
PST
Dirección del viento
PM10 Datos Datos
Velocidad del viento  
PM2.5 iniciales finales
Humedad relativa
Dirección del viento NÚMERO DE
Temperatura Ambiente 14050 13844
Velocidad del viento REGISTROS
Precipitación
Humedad relativa NÚMERO DE
Presión Atmosférica 11 8
Temperatura Ambiente ATRIBUTOS
ICAPM10
Radiación Solar
ICAPM2.5
Precipitación

Presión Atmosférica
FASE IV: MODELADO

Clustering por K-
Descriptivo Means

Modelado
Regresión lineal

Predictivo
Redes
neuronales
artificiales
CONSTRUCCIÓN MODELO DESCRIPTIVO

 Técnica del Clustering y calculo del SSE


Ejecución del algoritmo K-Means a 15 iteraciones para generación de 2 a 10 grupos, calculando el
SSE con la función de distancia Hartigan-Wong

Método del codo para el conjunto de datos Método del codo para el conjunto de datos
con la variable ICAPM10 con la variable ICAPM2.5
CONSTRUCCIÓN MODELO DESCRIPTIVO
 Mejor K según Índice de Davies Bouldin (DBI)

Numero de K 2 3 4 5 6 7 8

DBI para ICAPM10 1.473 1.387 1.190 1.254 1.239 1.399 1.335

DBI para ICAPM2.5 1.696 1.220 1,191 1,254 1,347 1,310 1,359

Rendimiento de grupos según criterio DBI Rendimiento de grupos según criterio DBI
1,700 1,700

1,600 1,600

1,500 1,500

1,400 1,400

1,300 1,300

1,200 1,200

1,100 1,100
2 3 4 5 6 7 8 2 3 4 5 6 7 8

DBI para ICAPM10 DBI para ICAPM2.5 DBI para ICAPM10 DBI para ICAPM2.5
MODELO DESCRIPTIVO ICAPM10
Cluster Vs ICAPM10
100%
90%
80% Mas de 300 -Peligrosa
201-300
70%
151-200
-Muy dañina
60%
50% 101-150 -Dañina S
40% 51-100 -Dañino Gs
30% 0-50
-Moderado
20%
10% -Bueno
0%
Cluster 1 Cluster 2 Cluster 3 Cluster 4

Cluster Vs Humedad en % (ICAPM10) Cluster Vs Temperatura en °C (ICAPM10)


100% 100%
90% 90%
80% 80%
70% 81-100 70% 35-40
60% 61-80 60% 31-35
50% 41-60 26-30
50%
40%
20-40 20-25
40%
30% 30%
20% 20%
10% 10%
0% 0%
Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 1 Cluster 2 Cluster 3 Cluster 4
MODELO DESCRIPTIVO ICAPM10
MODELO DESCRIPTIVO ICAPM10
CLUSTER 1 CLUSTER 2
ICA ICA
• 67% de la concentración por debajo de 50 • 81% de la concentración por debajo de 50

Temperatura Temperatura
• 48% de registros superan los 30°C • 50% de registros superan los 35°C

Humedad Humedad
• 43% de los registros por debajo de 60 • 50% de los registros por debajo de 60

Velocidad del viento Velocidad del viento


• 77% de registros superan los 1.5 m/s • 86% de registros entre 0.1 y 1 m/s

Presión atmosférica Presión atmosférica


• Estable entre 751 y 760 mmHg • Estable entre 751 y 760 mmHg

Precipitación Precipitación
• 3% de lluvias leves entre 0.1 y 5 mm • No se presentan lluvias en este cluster

Dirección del viento Dirección del viento


• 63% de registros hacia el Norte • 50% de registros hacia el Sureste
MODELO DESCRIPTIVO ICAPM10
CLUSTER 3 CLUSTER 4
ICA ICA
• 80% de la concentración por debajo de 50 • 86% de la concentración por debajo de 50

Temperatura Temperatura
• 90% de los registros por debajo de los 30°C • Mas del 40% de registros menores de 25°C

Humedad Humedad
• 60% de los registros por encima de 80 • 76% de los registros por encima de 80

Velocidad del viento Velocidad del viento


• Mas del 50% de registros entre 0.1 y 1 m/s • 60% de los registros son vientos calmados

Presión atmosférica Presión atmosférica


• Estable entre 751 y 760 mmHg • Estable entre 751 y 760 mmHg

Precipitación Precipitación
• 4% de lluvias leves entre 0.1 y 5 mm • 6% de lluvias leves entre 6 y 10 mm

Dirección del viento Dirección del viento


• 90% de registros hacia el Noroeste • 90% de registros hacia el Sureste
MODELO DESCRIPTIVO ICAPM2.5
Cluster Vs ICAPM2.5
100%
90%
80% 201-300
70%
-Muy dañina
151-200
60% 101-150 -Dañina S
50% 51-100 -Dañino Gs
40% 0-50
30% -Moderado
20% -Bueno
10%
0%
Cluster 1 Cluster 2 Cluster 3 Cluster 4

Cluster Vs Humedad en % (ICAPM2.5) Cluster Vs Temperatura en °C (ICAPM2.5)


100% 100%
90% 90%
80% 80%
70% 81-100 70% 35-40
60% 61-80 60% 31-35
50% 41-60 26-30
50%
40%
20-40 20-25
40%
30% 30%
20% 20%
10% 10%
0% 0%
Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 1 Cluster 2 Cluster 3 Cluster 4
MODELO DESCRIPTIVO ICAPM2.5
MODELO DESCRIPTIVO ICAPM2.5
CLUSTER 1 CLUSTER 2
ICA - Moderado ICA - Bueno
• Mas de 50% de la concentración entre 50 y 100 • Mas de 60% de la concentración por debajo de 50

Temperatura Temperatura
• 50% de registros por debajo de los 30°C • Cerca de 90% de registros superan los 35°C

Humedad Humedad
• 40% de los registros por debajo de 60 • 50% de los registros por debajo de 60

Velocidad del viento Velocidad del viento


• 75% de registros superan los 1.5 m/s • 95% de registros por debajo de 1 m/s

Presión atmosférica Presión atmosférica


• Estable entre 751 y 760 mmHg • Estable entre 751 y 760 mmHg

Precipitación Precipitación
• 3% de lluvias leves entre 0.1 y 5 mm • No se presentan lluvias en este clúster

Dirección del viento Dirección del viento


• 63% de registros hacia el Norte • 50% de registros hacia el Sureste
MODELO DESCRIPTIVO ICAPM2.5
CLUSTER 3 CLUSTER 4
ICA - Bueno ICA - Moderado
• 80% de la concentración por debajo de 50 • 10% de la concentración entre 100 y 200

Temperatura Temperatura
• 90% de los registros por debajo de los 30°C • 90% de registros menores de 30°C

Humedad Humedad
• 75% de los registros por encima de 80 • 60% de los registros por encima de 80

Velocidad del viento Velocidad del viento


• Mas del 60% de registros sin viento • Mas de 50% de los registros entre 1 y 2 m/s

Presión atmosférica Presión atmosférica


• Estable entre 751 y 760 mmHg • Estable entre 751 y 760 mmHg

Precipitación Precipitación
• 5% de lluvias entre 0.1 y 5 mm • 4% de lluvias entre 6 y 10 mm

Dirección del viento Dirección del viento


• 70% de registros hacia el Sureste • 90% de registros hacia el Noreste
MODELO PREDICTIVO

Regresión • La regresión lineal permite generar un modelo lineal


en el que el valor de la variable dependiente o
Lineal respuesta se determina a partir de un conjunto de
variables independientes llamadas predictores.
Múltiple

• Las RNA son sistemas adaptativos que aprenden a


Redes realizar ciertas tareas mediante un entrenamiento con
ejemplos ilustrativos. Las RNA aprenden a reconocer
Neuronales la relación que existe entre el conjunto de entradas
proporcionadas como ejemplos, y sus correspondiente
Artificiales salidas.
CONSTRUCCIÓN MODELO PREDICTIVO

• Conjunto de datos diarios para el • Combinaciones de entradas de modelo de Redes


entrenamiento y la validación Neuronales Artificiales y Regresión Lineal Múltiple

COMBINACIÓN DE ENTRADA ENTRADA DEL MODELO


CONTAMINANTE ENTRENAMIENTO VALIDACIÓN TOTAL COMBINACIÓN 1 Dir_Viento
COMBINACIÓN 2 Dir_Viento – Vel_Viento
ICAPM10 563 141 704 COMBINACIÓN 3 Dir_Viento – Vel_Viento – Humedad
COMBINACIÓN 4 Dir_Viento – Vel_Viento – Humedad – Temperatura
ICAPM2.5 563 141 704
COMBINACIÓN 5 Dir_Viento – Vel_Viento – Humedad – Pres_Atmosferica
COMBINACIÓN 6 Humedad – Temperatura –Precipitación – Pres_Atmosferica
Dir_Viento – Vel_Viento – Humedad – Temperatura –
COMBINACIÓN 7
Precipitación
Dir_Viento – Vel_Viento – Humedad – Temperatura –
COMBINACIÓN 8
Precipitación – Pres_Atmosferica
REGRESIÓN LINEAL MÚLTIPLE ICAPM10 E ICAPM2.5
REGRESIÓN LIN EA L MÚLTIPLE ICA PM10 REGRESIÓN LINEA L MÚLTIPLE ICA PM2.5
MAE RMSE MAE RMSE

C O M B INAC IÓ N 1 15.04 20.37 C O M B INAC IÓ N 1 20.88 27.19

C O M B INAC IÓ N 2 15.12 20.27 C O M B INAC IÓ N 2 21.1 27.3

C O M B INAC IÓ N 3 11.34 16.5 C O M B INAC IÓ N 3 17.01 24.26

C O M B INAC IÓ N 4 11.29 16.48 C O M B INAC IÓ N 4 17.28 24.7

C O M B INAC IÓ N 5 11.26 16.43 C O M B INAC IÓ N 5 16.28 23.71

C O M B INAC IÓ N 6 12.79 17.8 C O M B INAC IÓ N 6 19.49 26.67

C O M B INAC IÓ N 7 11.28 16.47 C O M B INAC IÓ N 7 17.26 24.69

C O M B INAC IÓ N 8 11.17 16.39 C O M B INAC IÓ N 8 16.52 23.94


MODELO PREDICTIVO REDES
NEURONALES ARTIFICIALES
RNA UNA CAPA OCULTA ICAPM10 E ICAPM2.5

ICAPM10 ICAPM2.5
ENTRADAS
# Neuronas MAE RMSE # Neuronas MAE RMSE
Capa Oculta Capa Oculta

Combinación 1 10 14,7843 20,2405 20 20,7320 27,0376


Combinación 2 12 14,7247 19,7456 25 19,8227 26,1369
Combinación 3 14 11,3293 16,4821 25 16,5530 24,8375
Combinación 4 11 11,8607 16,8725 13 15,9150 23,9151
Combinación 5 13 11,1196 16,3168 13 15,8699 23,1707
Combinación 6 9 12,5711 17,5932 11 17,4661 24,7749
Combinación 7 15 12,5431 16,8466 10 17,0690 24,7709
Combinación 8 15 12,2965 16,813 8 17,4248 24,9404
EVALUACIÓN DE LOS RESULTADOS

• Resultados de los errores de los modelos predictivos

Regresión Lineal RNA una capa oculta RNA dos capas ocultas
Errores
ICAPM10 ICAPM2.5 ICAPM10 ICAPM2.5 ICAPM10 ICAPM2.5

MAE 11,1709 16,2752 11,1196 16,3168 11,0308 15,9073

RMSE 16,3871 23,7065 16,3168 23,9151 16,1533 22,4045

Índice de Calidad del Variables identificadas para predicción y estudio de ICA


Aire según:
PM10 Dir_Viento + Vel_Viento + Humedad + Temperatura
Dir_Viento + Vel_Viento + Humedad + Temperatura
PM2.5
+ Precipitación + Pres_Atmosferica
CONCLUSIONES

Como se puede observar durante los desarrollos de los objetivos planteados


para este trabajo se puede evidenciar que los índices de calidad del aire están
fuertemente influenciados por la incidencia de las distintas variables
meteorológicas, pues se ha comprobado que con una buena interpretación de
las variables meteorológicas, podemos comprender ampliamente los patrones
de acción de los contaminantes en el índice de calidad del aire. De igual forma
se ha comprobado que las herramientas computacionales que nos brinda la
minería de datos, son un factor importante en este tipo de investigaciones, pues
tal y como lo hemos visto, arroja resultados favorables y confiables a la hora de
identificar y descubrir información relevante.
RECOMENDACIONES

• Se recomienda a la oficina de calidad del aire de CORPORCESAR,


apoyar la toma de decisiones en los resultados obtenidos en esta
investigación, basándose en técnicas computacionales para la
estimación e identificación de posibles emergencias ambientales
relacionadas con la contaminación atmosférica. La preparación de
planes de contingencia puede ser apoyada con la utilización de estas
técnicas, en relación a emergencias de salud pública y para
anticiparse a los posibles impactos ambientales derivados de la
contaminación del aire.

También podría gustarte