Está en la página 1de 31

MÓDULO

MINERÍA DE DATOS

“DISEÑAR, IMPLEMENTAR Y EJECUTAR UN PROGRAMA DE MINERÍA DE


DATOS EN EL PROGRAMA DE SEGURIDAD EN CARRETERAS
NACIONALES DEL INVIAS - PSCN”

ESPECIALIZACION GERENCIA DE PROYECTOS INTELIGENCIA DE


NEGOCIOS
BOGOTÁ D.C., COLOMBIA
2018

1
TABLA DE CONTENIDO
1. PLANTEAMIENTO DEL PROBLEMA Y JUSTIFICACIÓN........................................3
2. OBJETIVOS...........................................................................................................................4
2.1. OBJETIVO GENERAL.................................................................................................4
2.2. OBJETIVOS ESPECÍFICOS........................................................................................4
3. ANTECEDENTES.................................................................................................................5
4. MARCO TEÓRICO...............................................................................................................6
5. COMPRENSIÓN DEL NEGOCIO......................................................................................9
5.1. Determinar los objetivos del negocio.............................................................................9
5.1.1. Criterios de éxito del negocio..........................................................................................10
5.2. Evaluar la situación......................................................................................................10
5.2.1. Inventario de Recursos....................................................................................................10
5.2.2. Requerimientos y Restricciones......................................................................................11
5.2.3. Riesgos y Contingencias...................................................................................................12
5.2.4. Terminología....................................................................................................................13
5.2.5. Costos y beneficio.............................................................................................................14
5.3. Determinar los objetivos de datamining.....................................................................15
5.3.1. Criterios de éxito..............................................................................................................16
5.4. Elaborar el plan del proyecto.......................................................................................16
6. COMPRENSIÓN DE LOS DATOS...................................................................................18
6.1. Colección de datos inicial.............................................................................................18
6.2. Describir los datos.........................................................................................................18
6.3. Explorar y calidad de datos..........................................................................................19
7. PREPARACIÓN DE LOS DATOS....................................................................................19
7.1. Seleccionar datos...........................................................................................................19
7.2. Limpiar los datos...........................................................................................................20
7.3. Construir datos..............................................................................................................20
7.4. Integrar los datos..........................................................................................................20
7.5. Formatear los datos......................................................................................................21
8. MODELADO........................................................................................................................21
8.1. Tarea: Escoger la Técnica de Modelado.....................................................................21
Generación de la prueba del diseño.......................................................................................23
8.2. Construcción del Modelo..............................................................................................24
8.3. Evaluación del Modelo..................................................................................................25

2
8.4. Evaluación de los resultados........................................................................................25
8.5. Proceso de revisión........................................................................................................26
9. DESPLIEGUE = DESARROLLO......................................................................................28
CONCLUSIONES.......................................................................................................................29
ANEXOS.......................................................................................................................................30
REFERENCIAS...........................................................................................................................31

1. PLANTEAMIENTO DEL PROBLEMA Y JUSTIFICACIÓN

El Programa de Seguridad en Carreteras Nacionales “PSCN” del INVIAS tiene como


objeto realizar las actividades necesarias en conjunto con la fuerza pública para garantizar las
condiciones de seguridad en las vías nacionales, disminución de alteraciones de orden público
en las vías, disminución de accidentalidad y generación de cultura en torno a la seguridad vial,
siendo ésta una política de Estado. Esto se realiza a través del apoyo y trabajo en conjunto
con las fuerzas militares (Ejército Nacional y Armada Nacional) y a la Dirección de Tránsito y
Transporte de la Policía Nacional, con el propósito de que brindar condiciones seguras de
tránsito en la red vial nacional y se fortalezca la cultura en seguridad vial, fomentado el uso del
transporte por carretera y el derecho a la libre circulación de personas por el territorio nacional,
reactivando sectores como el turismo, el comercio entre las regiones mediante el transporte de
pasajeros, carga y mercancía desde y hacia los principales puertos del país.

Una de los principales propósitos de este programa es la reducción de los índices de


accidentalidad vial, que en Colombia representa la segunda causa de muerte violenta, siendo así
una problemática de salud pública dado que esto dependen de todos los actores viales como
peatones, ciclistas, motociclistas, conductores. Durante el año 2017, se presentaron en total
6.718 fallecidos en incidentes viales, es decir en promedio 18 personas perdieron la vida
diariamente; se refleja una disminución de 441 casos respecto al año 2.016. En 2017 se
registraron 40.088 lesionados por esta misma causa. (Mauricio Lopez Bohorquez, 2018).

3
Dado lo anterior, y con el fin de contribuir con el cumplimiento de uno de los principales
objetivos del Programa en Seguridad en Carreteras Nacionales, en cuanto a lograr una reducción
en la accidentalidad y el fortalecimiento de la cultura vial, surge la necesidad de desarrollar una
estrategia para la identificación temprana y la prevención de accidentes, para este fin se plantea
recurrir a la minería de datos, que permita la identificación de patrones en accidentes de tránsito
en Colombia durante el periodo comprendido entre las vigencias 2014 a 2017, mediante el
proceso de extracción y análisis de datos los cuales reposan en la base de datos “Lesiones y
Homicidios en accidentes de tránsito a nivel nacional 2014 – 2017” datos suministrados al
PSCN por la Dirección de Tránsito y Transporte y el Grupo de Criminalidad de la Policía
Nacional.

Con este proyecto se pretende generar conocimiento valioso el cual apoye la toma de
decisiones para construir una de política pública vial asertiva, apoyo certero en la estructuración
y desarrollo de estrategias, planes y programas sostenibles orientados a la reducción de la
accidentalidad, como el control operativo de la fuerza pública focalizado en los puntos críticos
de mayor siniestralidad, con la finalidad de minimizar el número de muertes y lesiones en estos
lugares, toda vez que está demostrado que la aplicación de la ley salva vidas.

2. OBJETIVOS
2.1. OBJETIVO GENERAL

Identificar por medio de la aplicación de técnicas de Minería de datos patrones los cuales
permitan caracterizar la accidentalidad en Colombia y así contribuir en su prevención.

2.2. OBJETIVOS ESPECÍFICOS

 Desarrollar el análisis y procesamiento de datos a través de las seis fases


propuestas en la metodología CRISP-DM, la cual plantea el ciclo de vida de un
proyecto de minería de datos.
 Analizar la naturaleza del negocio, la situación actual de la empresa y definir que
se desea solucionar con la presente investigación.
 Realizar el proceso de abstracción, recopilación y familiarización de los datos.

4
 Realizar actividades que filtren y organicen los datos relevantes para esta
investigación.
 Seleccionar una o varias técnicas y algoritmos de minería de datos mediante el uso
de la herramienta WEKA.

 Evaluar y verificar que el modelo construido para el análisis de datos sea el


indicado y explicar el significado de los resultados obtenidos.

 Organizar y presentar los resultados obtenidos a partir del estudio de minería de


datos realizado, mediante un informe que ordene y agrupe dicha información.

3. ANTECEDENTES

Según el Plan Mundial para el decenio de acción para la seguridad vial 2011 – 2020 de la
organización mundial de la salud, cada año mueren cerca de 1,3 millones de personas en las
carreteras del mundo entero, es decir más de 3.000 defunciones al día de las cuales más de la
mitad de ellas no viajaban en automóvil. Entre 20 y 50 millones de personas más padecen
traumatismos no mortales, los cuales constituyen una causa importante de discapacidad en todo
el mundo. Los accidentes de tránsito son una de las principales causas de muerte en todos los a
nivel mundial, aproximadamente el 90% de las defunciones por accidentes de tránsito tienen
lugar en los países de ingresos bajos y medianos, donde se halla menos de la mitad de los
vehículos matriculados en todo el mundo. (Organización Mundial de la Salud, 2010).

Según los registros del Instituto Colombiano de Medicina legal y Ciencias Forenses,
durante el periodo comprendido entre el año 2014 y el año 2017 por lo menos 200.494 personas
han sido víctimas de accidentes de tránsito, de los cuales el 12.57% han fallecido a consecuencia
de estos hechos. A su vez por cada persona que pierde la vida en accidentes de tránsito, siete
personas resultaron lesionadas en eventos similares durante dicho periodo de tiempo. Es decir
que por cada persona que falleció por esta causa en Colombia durante el 2017, se registraron seis
casos de lesiones no fatales.

5
4. MARCO TEÓRICO

La Minería de Datos se puede definir como un conjunto de técnicas encaminadas al


descubrimiento de la información contenida en grandes conjuntos de datos. Dichas técnicas
tratan de analizar comportamientos, patrones, tendencias, asociaciones y otras características del
conocimiento inmerso en los datos.

Debido al incremento exponencial en el volumen y variedad de datos generados día a día


por diferentes sistemas y mediciones de actividades cotidianas en la sociedad, se dispone de
grandes cantidades de datos lo cual conlleva a la necesidad de poder analizarlos ordenadamente
para extraer de un modo automatizado la inteligencia contenida en ellos utilizando técnicas
especializadas apoyadas en herramientas informáticas. Estas técnicas constituyen la minería de
datos. (Marqués, 2014)

En conclusión lo que se busca a través de la minería de datos es la extracción de


conocimiento útil y comprensible basado en datos, mediante la utilización de herramientas
robustas que proporcionen algoritmos eficientes los cuales conduzcan a la toma de decisiones
acertadas, dado que de la manera como se encontraban organizados dichos datos no generaban
ningún valor ni conocimiento entre ellos y considerando la gran magnitud de datos que se
maneja hoy día, se hace imposible analizarlos y procesarlos de forma manual o mediante
técnicas tradicionales.

La construcción de modelos para el descubrimiento de patrones o relaciones mediante


algoritmos de minería de datos esta clasificada en dos orientaciones:

 Predictiva: busca estimar valores o campos desconocidos o futuros a partir


de variables independientes de una o varios beses de datos; es decir cómo se va a
comportar cierta data en el futuro. Dentro de las técnicas predictivas se encuentran la
detección de desviaciones, segmentación, agrupación o clustering, reglas de
asociación, patrones secuenciales.

6
 Descriptiva: Busca establecer patrones que expliquen y exploren las
propiedades de los datos examinados. Dentro de las técnicas descriptivas se
encuentran los arboles de decisión, la inducción neuronal, regresión, series
temporales. (Grancolombiano, 2011).

La Metodología para Minería de datos CRISP-DM (Cross-Industry Standart Process for


Data Mining) es una guía de referencia de las más relevantes y que puede ser incorporada y
adaptada a las empresas. Esta metodología se describe como un modelo jerárquico, basado en
seis fases cambiantes entre sí, que a su vez se componen de una serie de actividades o tareas
secuenciales que generan unas salidas. A continuación, se describe el proceso: (Dataprix, na)

Fase 1: Comprensión del Negocio: es comprender el negocio y definir el problema, dado


que es importante para entender los objetivos del proyecto. En esta fase es necesario desarrollar
tareas específicas como son: Determinar objetivos del negocio, evaluar la situación, determinar
objetivos del datamining, elaboración del plan de proyecto.

Fase 2: Comprensión de los datos: Involucra la búsqueda de información y de las


variables que se utilizan durante el proceso. Esta fase contiene las siguientes actividades:
Recolección inicial de los datos, descripción de los datos, exploración de los datos y verificación
de la calidad de los datos.

Fase 3: Preparación de los datos: la preparación de los datos se lleva a cabo con el fin de
adáptalos de tal manera que sean óptimos para aplicar la técnica elegida. Se debe realizar un
preprocesamiento sobre los atributos mediante el cual se identifiquen valores extraños, faltantes,
valores no identificados, en diferentes formatos, entre otros. Las actividades para desarrollar en
esta fase son: Selección de los datos, limpieza de los datos, construir datos, integración de los
datos y formatear los datos.

Fase 4: Modelamiento: se definen las técnicas de modelado específicas que sean más
apropiadas para el proyecto, se realizan las pruebas de calidad y validez del modelo, con la
descripción de parámetros del modelo y finalmente se interpreta y evalúa el modelo. Esta fase se

7
constituye por las siguientes tareas: Selección de la técnica de modelamiento, generación del
diseño de pruebas, construcción del modelo, evaluación técnica del modelo.
Fase 5: Evaluación del negocio: se procede a la generación y evaluación del modelo, no
desde el punto de vista de los datos, sino del cumplimiento de los objetivos de la empresa. Si el
modelo es válido en función de los objetivos establecidos en la primera fase, se procede al
despliegue del modelo. Esta fase abarca las actividades: Evaluación de los resultados del
negocio, revisión del proceso, determinación de los próximos pasos.

Fase 6: Despliegue: esta fase no determina la fase final del proyecto, dependiendo de los
requisitos esta fase puede ser la generación de un informe o la aplicación y revisión de
nuevamente de todo el proceso de minería. Consta de las siguientes tareas: Planificación del
despliegue, planificación del monitoreo y mantención, producir reporte final, revisar el proyecto.

Weka es un software de código abierto emitido bajo la Licencia Pública General de GNU
y se describe como una colección de algoritmos de aprendizaje automático para tareas de
minería de datos, la cual contiene herramientas para la preparación de datos, clasificación,
regresión, agrupación, extracción de reglas de asociación y visualización. (Eibe Frank, 2016)

El banco de trabajo de Weka incluye métodos para los principales problemas de minería
de datos como son: regresión, clasificación, agrupación o clustering, minería de reglas de
asociación y selección de atributos. Conocer los datos es un parte integral del trabajo, posee
muchas instalaciones de visualización de datos y herramientas de pre-procesamiento de datos,
todos los algoritmos toman su entrada en forma de una sola tabla relacional que puede leerse
desde un archivo o generarlo por una consulta de base de datos.

Una de las ventajas de WEKA es que es altamente portable al estar completamente


implementado en Java, por lo que se puede ejecutar en prácticamente cualquier plataforma.
Además, WEKA contiene una extensa colección de técnicas para pre-procesamiento de datos,
como por ejemplo: selección de atributos, discretización, tratamiento de valores desconocidos y
transformación de atributos numéricos. También proporciona una amplia gama de modelos de
aprendizaje, concretamente: árboles de decisión, tablas de decisión, vecinos más próximos,

8
máquinas de vectores soporte, reglas de asociación, métodos de agrupamiento y modelos
combinados.

En cuanto a la interfaz gráfica, WEKA nos permite la opción de seleccionar entre cuatro
posibles entornos para acceder a las funcionalidades del programa, éstos son “Simple CLI”, que
es una consola que permite utilizar WEKA desde la línea de comandos, “Explorer”, que permite
controlar todas las operaciones que ofrece WEKA mediante una serie de paneles. El entorno
“Experimenter” permite la comparación sistemática de una ejecución de los algoritmos
predictivos de WEKA sobre una colección de conjuntos de datos.

Clustering, es una técnica que permite analizar y examinar datos que no se encuentran
etiquetados, formando conjuntos de grupos a partir de su similitud, su principal objetivo es
dividir un conjunto de objetos en dos o más grupos basándose en la similitud de un conjunto de
variables que los caracterizan. La similitud puede medirse a través de funciones de distancia y
los objetos se agrupan de acuerdo a toda la variable y por ello, una variable irrelevante puede
generar ruido en los resultados obtenidos.

5. COMPRENSIÓN DEL NEGOCIO

5.1. Determinar los objetivos del negocio

El Programa de Seguridad en Carreteras Nacionales tiene como objetivo primario para


este estudio de minería de datos “La identificación de patrones en accidentes de tránsito los
cuales describan las características bajo las cuales se presenta el mayor número de casos de
homicidios y lesiones en accidentes viales” lo cual genere la adopción de políticas de seguridad
vial asertivas y orienten sobre la toma de medidas efectivas en pro de la reducción de indicies de
accidentalidad.

Para lograr el objetivo de reducción de índices de accidentalidad vial, se fijan los


siguientes objetivos de negocio:

1. Detectar las características generales de los móviles que ocasionan lo

9
accidentes de tránsito y detalles de las personas involucradas bien sea fallecidas o
lesionadas.

2. Conocer información de comportamientos, definición de variables y


puntos críticos, y de este modo poder tomar medidas de prevención frente a ellos.

3. Determinar el punto donde más accidentalidad se presenta.

5.1.1. Criterios de éxito del negocio

 Obtener información relevante sobre las características generales de los móviles que
ocasionan lo accidentes de tránsito con el fin de predecirlos.

 Adquirir información útil de comportamientos y puntos críticos con el fin de mejorar la


operación de la fuerza pública
ROLES YyREPONSABILIDADES
prevenir accidentes.
PROYECTO
NOMBRE AUTORIDAD RESPONSABILIDAD COMPENTENCIAS/HABILIDADES DISPONIBILIDAD
5.2. Evaluar la lasituación
- Decide sobre - Responsable de la planificación - Líder en gestión de proyectos
información y del proyecto. - Conocimiento en Gestión de
entregables del - Dirección y coordinación de los proyectos PMBOK 5V.
5.2.1. Inventario proyecto.
de Recursos
recursos empleados. - Liderazgo, Comunicaciones.
- Decide sobre el - Moderar reuniones programadas. Negociación, solución de
Gerente- Diana Pastrana dpastrana25@gmail.com
presupuesto de
Los recursos a utilizar -seElaborar informes finales
representan en cómoconflictos, sigue motivación.
acuerdo al alcance - Participar en el comité de control -Conocimiento en Big data y
Tabla 1 Recursosotorgado. de cambios. Minería de datos.
- Autorizar cambios.
Personal

- Responsables de realizar todas las


Analista de Minería de fases del proceso deData Mining.
doritapq@gmail.com
Datos - Dora Jiménez - Definen el (los) algoritmo(s) DM a
utilizar
-Conocimiento en Gestión de
-Realizan la selección de los datos.
proyectos PMBOK 5V.
-Realizan la preparación y limpieza
-Responsables de - Conocimiento en Big data y
de los datos.
transformar los Minería de datos.
-Realizan la transformación de los
Analista de Minería de objetivos del - Liderazgo, Comunicaciones.
datos. jennifer_wk@yahoo.com.co
Datos - Liliana Espinosa negocio en Negociación, solución de
-Definen o establecen los
objetivos del Data conflictos, motivación.
parámetros del algoritmo DM que
Mining (DM). - Lideres en implementación y
se va a plicar.
ejecución de proyectos de
-Ejecutan el(los) algoritmo(s) DM.
Minería de Datos.
-Evaluan los resultados obtenidos.
Analista de Minería de
-Transforman los resultados en
Datos - José Leonardo li.perez0316@gmail.com
informaciòn interpretable por el
Pérez
usuario final.
10
HARDWARE DESCRIPCIÓN
Windows 10 Pro 64
HP EliteOne 1000 All-in-One Procesador de 7a generación Intel® Core™ i5
8 GB de SDRAM DDR4-2400 (1 x 8 GB)
Datos
Herramienta Minería de datos VERSIÓN
Weka 3.8

Hardware

Software

Fuente: Propia - Equipo gestor del proyecto - EGP

5.2.2. Requerimientos y Restricciones

Se describen a continuación los requerimientos estimados a tener en cuenta, las


restricciones y cuestionamientos legales a tener en cuenta:
Tabla 2 Requisitos y restricciones

REQUISITOS DEL PROYECTO


ID DESCRIPCIÓN
1 Identificación del problema o necesidad de análisis.
2 Evaluar, proyectar y explicar los resultados de la aplicación de un algoritmo.
3 Identificación del problema o necesidad de análisis.
4 Presentación de documento final.
5 Fecha de entrega: 17 de Diciembre de 2018 a las 23:55
6 482 horas de trabajo para la realización del proyecto.
RESTRICCIONES
ID DESCRIPCIÓN 11
1 La colección de datos es suministrada en fomato CSV - delimitado por comas.
CUESTIONES LEGALES
ID DESCRIPCIÓN
Las características generales de los incidentes y demás datos generados
durante el proceso de valoración de la escena, incluyendo móviles del
1
accidente y detalles de personas involucradas están a disposición de la
ciudadanía en general. – Ley 1720 de 2.014
Fuente: Propia - Equipo gestor del proyecto - EGP
5.2.3. Riesgos y Contingencias.

Se establecen riesgos, probabilidad de ocurrencia, impacto en el proyecto en su ejecución,


contingencia a realizar:
Tabla 3 Plan de riesgos y contingencias

PLAN DE RIESGOS Y CONTINGENCIAS


ID RIESGO PROBABILIDAD IMPACTO MITIGACIÓN DEL RIESGO
Carencia en la identificación de un Incluir dentro del proyecto toda la
1 objetivo del negocio de minería de Baja Alto información pertinente al nuevo
datos objetivo.
Identificación errada de algún Iniciar el proyecto nuevamente.
2 objetivo de negocio o de Minería de Baja Alto Dedicar más tiempo a esta labor con
datos. el fin de no repetir el mismo error.
Repetir algunos pasos para obtener
resultados correctos. Hacer énfasis en
3 Obtener resultados incorrectos. Media Alto
los pasos a fin de no cometer el
mismo error.
Empezar de nuevo el proyecto. Buscar
4 No detectar resultados incorrectos. Baja Alto
asesoría de otros expertos.
Trabajar más horas de las planificadas,
5 No cumplir con el plazo de entrega. Baja Alto incluyendo horario fuera de lo
establecido.
Reestructuración del horario y
Otras actividades influyen en la
6 Media Medio planificarlo en función de la
planificación realizada.
disponibilidad del miembro.
Reestructuración del horario en
Deserción de algún miembro del
7 Alta Alto función de la disponibilidad de los
proyecto.
miembros del proyecto.
Incremento en los costos del
8 Trabajar más horas de lo planificado. Baja Bajo proyecto. Reestructurar las tareas de
cada miembro.
Reestructurar el reparto de tareas.
Trabajar menos horas de lo
9 Baja Bajo Asignar mas horas a un integrante o
planificado.
aumentar horas de trabajo.
Perder el trabajo realizado hasta el Empezar el trabajo desde la última
10 Media Alta
momento. versión guardada en el back up.
12
11 Imposibilidad de recuperar el back up Baja Alta Empezar el trabajo de cero.
Fuente: Propia - Equipo gestor del proyecto - EGP

5.2.4. Terminología

Se utiliza un glosario de acuerdo al tipo de negocio del proyecto, con el fin de buscar
comprensión en la terminología a utilizar en su proceso.
Tabla 4 Glosario

13
GLOSARIO ESPECÍFICO DEL NEGOCIO
ID NOMBRE DESCRIPCIÓN
1 PSCN Programa de Seguridad en Carreteras Nacionales.
Evento, generalmente involuntario, generado al menos por un vehículo en
movimiento, que causa daños a personas y bienes involucrados en el e igualmente
2 Accidente de Trànsito
afecta la normal circulación de los vehículos que se movilizan por la vía o vías
comprendidas en el lugar o dentro de la zona de influencia del hecho.
Consiste en la prevención de accidentes de tránsito o la minimización de sus efectos,
especialmente para la vida y la salud de las personas, cuando tuviera lugar un hecho
3 Seguridad Vial
no deseado de tránsito. También se refiere a las tecnologías empleadas para dicho fin
en cualquier medio de desplazamiento.
Se refiere a los principios fundamentales que deben servir como guía para el gobierno
de una nación. Las políticas de estado no deberían asociarse a un gobierno concreto o
4 PolÍtIca de Estado una ideología determinada. Por el contrario, con esta denominación se alude a todos
aquellos asuntos que se consideran claves para defender los intereses generales de
una nación.
Son todas las personas que asumen un rol determinado, para hacer uso de las vías, con
5 Actores Viales
la finalidad de desplazarse de un lugar a otro.
Desde una perspectiva antropológica, es la manera como los seres humanos viven,
6 Cultura Vial sienten, piensan y actúan en, desde y para el cotidiano de los espacios de
movilización y desplazamiento.
Una base de datos es un “almacén” que nos permite guardar grandes cantidades de
7 Base de datos información de forma organizada para que luego podamos encontrar y utilizar
fácilmente.
Alteración o daño que se produce en alguna parte del cuerpo a causa de un golpe,
8 Lesión
enfermedad o accidente.

GLOSARIO ESPECÍFICO DE MINERÍA DE DATOS


ID NOMBRE DESCRIPCIÓN
1 CRISP-DM CRISP-DM es una metodología para el desarrollo dr proyectos de minería de datos.
colección de algoritmos de aprendizaje automático para tareas de minería de datos, la
2 Weka cual contiene herramientas para la preparación de datos, clasificación, regresión,
agrupación, extracción de reglas de asociación y visualización.
conjunto de técnicas encaminadas al descubrimiento de la información contenida en
grandes conjuntos de datos. Dichas técnicas tratan de analizar comportamientos,
3 Mineía de datos
patrones, tendencias, asociaciones y otras características del conocimiento inmerso en
los datos.
Es un conjunto de heurísticas y cálculos que permiten crear un modelo a partir de
4 Algoritmo datos. Para crear un modelo, el algoritmo analiza primero los datos proporcionados,
en busca de tipos específicos de patrones o tendencias.
Es una especificación que define una propiedad de un objeto, elemento o archivo.
5 Atributo También puede referirse o establecer el valor específico para
una instancia determinada de los mismos.
Acto de descubrimiento y corrección o eliminación de registros de datos erróneos de
6 Limpieza de datos una tabla o base de datos. ... El proceso de limpieza de datos incluye la validación y
además la corrección de datos, para alcanzar datos de calidad.
Fuen
te: Propia - Equipo gestor del proyecto - EGP
5.2.5. Costos y beneficio

El análisis costo beneficio se realiza, sobre el presupuesto requerido para la ejecución del
proyecto y el beneficio que se espera tener en su aplicación.

14
La minería de datos para la organización se convierte en una herramienta estratégica para
la toma de decisiones que para la que nos compete la hacen más asertiva en los datos que
suministra, siendo estos de calidad y con información oportuna, más que en un nivel competitivo
a nivel comercial.
El beneficio en cuanto a la inversión definida en el presente proyecto se refleja en la
información que se obtendrá y que evalúa puntos como:
1. Información que suministra permitirá establecer criterios para el aseguramiento de
cumplimiento en estándares de seguridad vial de los actores viales. Estos son
empresas u organizaciones que están en obligación de implementar y mantener los
planes estratégicos de seguridad vial y se movilizan por las vías del país.
2. Identificar comportamientos en vía como puntos críticos, para así definir herramientas
efectivas en el control de flotas vehiculares de las empresas, promoviendo cultura de
gestión del riesgo desde las fuentes generadoras de los mismos.
3. Identificación de peligros y generación de necesidades de evaluación de riesgos
viales.
4. Seguimiento conductual de los actores de las vías, que generen capacitaciones en
temas como manejo seguro de vehículos, socialización de políticas, estándares y los
planes estratégicos viales, todo en concordancia con los planes de movilidad segura y
sostenible que organizan entidades privadas y públicas en Colombia, encaminadas a
disminuir los índices de accidentalidad. (Ver anexo1. Costos)
5.3. Determinar los objetivos de datamining

1. Obtener un modelo de agrupación “clustering” utilizando como variables a


predecir zonas de alta ocurrencia de accidentes, días, horas, actores involucrados,
edad, sexo y tipo.
2. Obtener un modelo de reglas de clasificación de variables aleatorias.

15
Tabla 5 Salidas

OBJETIVO DEL NEGOCIO OBJETIVO MINERÍA DE DATOS SALIDAS


1. Obtener un modelo de agrupación
1.     Detectar las características Para alcanzar este objetivo se construira
“clustering” utilizando como
generales de los móviles que un modelo de agrupación de variables de
variables a predecir zonas de alta
ocasionan lo accidentes de tránsito y tal manera que se consiga decubrir
ocurrencia de accidentes, días, horas,
detalles de las personas involucradas patrones que se cumplan en los moviles
actores involucrados, edad, sexo y
bien sea fallecidas o lesionadas. del accidentes.
tipo.
2.     Conocer información de Para el logro de este objetivo se
comportamientos, definición de 2. Obtener un modelo de predicción constrruirá un modelo de variables
variables y puntos críticos, y de este de variables aleatorias usando aleatorios de modo que se puedan
modo poder tomar medidas de muestreo con reemplazo. predecir puntos criticos y otra serie de
prevención frente a ellos. descubrimientos.

Fuente: Propia - Equipo gestor del proyecto - EGP

5.3.1. Criterios de éxito

Se establece como criterio de éxito del modelo, que el porcentaje de las instancias
correctas sea por lo menos del 65%. De no ser así se debe verificar la depuración de la data y/o
plantear modelos diferentes.

5.4. Elaborar el plan del proyecto

Para la planificación del proyecto y con el objetivo de llevar a cabo un mejor


seguimiento, en la tabla que se relaciona a continuación se especifica una descripción de las
tareas, duración, comienzo y fin de cada tarea que conforma el proyecto.

16
Tabla 6 Planificación de actividades

ID DESCRIPCION TAREAS DUR F. INICIO F. FINAL PDC


0 PROYECTO - PSCNI 27d 24/12/2018 17/12/2018
1 Constitucion de equipo gestor del proyecto 5d 12/11/2018 16/11/2018
1.1 Levantamiento de información 3d 12/11/2018 14/11/2018
1.2 Entender el dominio del problema y los datos 2d 15/11/2018 16/11/2018 2
2 Planteamiento del problema 1d 19/11/2018 19/11/2018
2.1 Formulación y justificación 1d 19/11/2018 19/11/2018 3
3 Indentificación y Comprension 4d 20/11/2018 23/11/2018
3.1 Comprencion del negocio 2d 20/11/2018 21/11/2018 5
3.2 Comprencion de los datos 2d 22/11/2018 23/11/2018 7
4 Manejo de los datos 6d 26/11/2018 03/12/2018
4.1 Preparación 1d 26/11/2018 26/11/2018 8
4.2 Limpieza 3d 27/11/2018 29/11/2018 10
4.3 Transformacion 2d 30/11/2018 03/12/2018 11
5 Tecnica de Mineria de datos 5d 04/12/2018 10/12/2018
5.1 Estudio y comprención de herramienta a utilizar 2d 04/12/2018 05/12/2018 12
5.2 Aplicacion en herramientas - Weka 3d 06/12/2018 10/12/2018 14
6 Modelado 2d 11/12/2018 12/12/2018
6.1 Evaluacion, prueba y construccion 2d 11/12/2018 12/12/2018 15
7 Evaluacion 1d 13/12/2018 13/12/2018
7.1 Proyección y explicacion de resultados 1d 13/12/2018 13/12/2018 17
8 Entrega final 3d 14/12/2018 18/12/2018
8.1 Revisión y ajustes finales 1d 14/12/2018 17/12/2018 19
8.2 Entrega Final 1d 17/12/2018 17/12/2018 21

Fuente: Propia - Equipo gestor del proyecto - EGP

Una vez definidas las tareas y siguiendo el mismo orden en el desarrollo del proyecto, se elaboró
un diagrama de Gantt (ver archivo pdf: Cronograma PSCNI). La planificación y el tiempo
dedicado a cada tarea han sido basados en los requisitos de trabajo.

En este proyecto se va a llevar a cabo un análisis mediante dos Técnicas:


1. Análisis Predictivo: mediante la implementación de la Técnica reglas de clasificación de
tal forma que se logre conocer reglas o patrones de casos de mayor accidentalidad.
2. Análisis Descriptivo: mediante la implementación de la Técnica de agrupación o
clustering con el fin de encontrar relaciones significativas entre los atributos y de este
modo identificar patrones interesantes y desconocidos que aporten conocimiento para la
toma de decisiones.

17
6. COMPRENSIÓN DE LOS DATOS

6.1. Colección de datos inicial


Los datos de origen han sido adquiridos la base de datos “Lesiones y Homicidios en accidentes
de tránsito a nivel nacional” los cuales son suministrados mensualmente al PSCN mediantes
reportes en formato CSV, por parte de la Dirección de Tránsito y Transporte y el Grupo de
Criminalidad de la Policía Nacional. Esta base de datos consta de 238.242 registros, 21 atributos
y su tamaño es de 23.949 KB.

La fuente que proporciona los datos la suministras en formato CSV, en la base de datos se
observan datos no reportados o no identificados durante el reporte de un accidente en particular,
una de las posibles causas de esta falencias es que probablemente el personales encargado de
diligencias los formatos no lo realiza en el lugar de los hechos y luego olvida detalles. se
evidencia diversidad de formatos de fecha y hora, datos extraños y atributos poco relevantes para
este caso de investigación. Otro problema que suele presentarse es que posiblemente el personal
que digitaliza la información de los reportes de accidentes no lo realice de forma debida,
omitiendo atributos o introduciendo palabras erróneas.
Para tener una mejor visualización de la información se llevó a cabo la división de texto en
columnas, así como la unificación de formato de fecha y hora.
6.2. Describir los datos
Tabla 7Descripción de los datos

Fuente: Propia - Equipo gestor del proyecto – EGP

18
6.3. Explorar y calidad de datos
Aunque el programa de seguridad en carretas nacionales cuenta con ese tipo de información
acerca de accidentes de tránsito a nivel nacional, los datos poseen algunos atributos poco
relevantes para este proyecto como son: arma empleada, clase de empleado, profesión, cantidad
y código Dane. De otro lado los datos carecen de detalles como por ejemplo la ubicación exacta
de la ocurrencia de los hechos y la falta de estandarización en el método utilizado para la captura
de los datos, con lo cual se podrían disminuir los errores de digitación y aumentar la fiabilidad de
los datos.
A pesar de lo anteriormente descrito, se cuenta con buenos atributos para el análisis de Minería
de datos que se pretende llevar a cabo, dado que nos van a permitir identificar patrones acerca de
las características de los móviles que ocasionan este tipo de accidentes viales, como son
ubicación de departamentos y ciudades de mayor incidencia, días y hora en que se presenta
mayor número de eventos, actores viales más involucrados en estos hechos, tipo de fatalidad del
accidente, entre otros.
Los datos que no están completos y ellos son relevantes para la limpieza se deberán entonces
eliminar toda vez que al ser estadísticas no es posible encontrarlas al detalle.
Los datos entregados tenían formatos diferentes unos de otros por lo cual se estandariza a un solo
formato general.

7. PREPARACIÓN DE LOS DATOS


7.1. Seleccionar datos

Dada la naturaleza del programa en carreteras nacionales se hacen importantes los siguientes
atributos:
- Clase
- Fecha
- Departamento
- Día
- Franja Horaria
- Clase de sitio
- Edad
- Sexo

19
Estos atributos brindan información en diferentes formas de consulta que permiten identificar
requisitos para la incorporación de campañas, programas más específicos que den lugar a una
prevención y disminución de índices de accidentalidad.
7.2. Limpiar los datos

Tabla 8Tabla identificación limpieza

ENTRADAS - HALLAZGOS SALIDAS - SOLUCION


Datos vacíos dentro de los registros Se agrega en el campo vacío N/A si no
afecta en forma relevante las consultas. Si
al contrario lo afecta y no es posible
obtener información de calidad se elimina.
El formato en los campos numéricos o de Se realizan filtros unificando el tipo de
fechas se encuentran diferentes formato.
Datos errados desde su ingreso Realizar listas o guías de referencias
estandarizadas que permitan consultar y
remplazar el campo errado.
Fuente: Propia de Equipo gestor del proyecto - EGP
7.3. Construir datos

Un atributo derivado puede obtenerse como lo es “Franja horaria” surge del atributo existente
hora, con el fin de segmentar rangos de horarios, donde se busque clasificar categorías de
acuerdo a esos horarios. Los segmentos utilizados son Mañana (06:00am – 11:59am), Tarde
(12:00pm – 5:59pm), Noche (06:00 pm – 11:59pm)
Tabla 9 Ejemplo atributos horarios

Día Hora Barrio Zona Clase de sitio Arma empleada


Miércoles 01:00:00 KENNEDY URBANA VIAS PUBLICAS MOTO
Sábado 01:00:00 PALERMO C-4 URBANA VIAS PUBLICAS MOTO
Sábado 01:00:00 CIUDAD KENNEDY OCC E-8 URBANA VIAS PUBLICAS VEHICULO
Martes 01:00:00 CORAZON DE JESUS C-10 URBANA VIAS PUBLICAS MOTO
Lunes 01:00:00 VIA FLORENCIA , SUAZA-HUILA RURAL CARRETERA MOTO
Jueves 01:00:00 LA FLORESTA URBANA VIAS PUBLICAS VEHICULO
Domingo 01:00:00 BENJAMIN PORRAS URBANA VIAS PUBLICAS MOTO
Domingo 01:00:00 AVENIDA LA PLAYA URBANA PERIMETRO URBANO MOTO
Fuente: Propia de Equipo gestor del proyecto - EGP
7.4. Integrar los datos

20
No aplica debido a que solo se tiene una fuente de datos.
7.5. Formatear los datos

En cuanto al formateo se tendrá en cuenta las características que de cada registro se visualice
manteniéndolos uniformes o estandarizados en toda la base de datos, estos son:
Caracteres de tipo de calendario, hora, fecha, días, años, caracteres de texto o numéricos,

8. MODELADO
8.1. Tarea: Escoger la Técnica de Modelado

El modelo que mejor se adapta a los objetivos del proyecto es la Técnica de Clustering,
mediante el algoritmo SimpleKmeans el cual es un método de agrupamiento, que tiene como
objetivo la partición de un conjunto de n observaciones (datos) en k grupos (clusters) en el que
cada observación pertenece al grupo cuyo valor medio es más cercano. (Wikipedia, 2018)

Descripción del funcionamiento del Algoritmo Kmeans:


Paso 1:
k es el número de clústers finales. Todo clúster tiene un centroide,
el cual es el punto promedio de todos los datos (observaciones) de
clúster.
En el ejemplo de la graficas tenemos K=3 y cada cluster tiene su
centroide, los cuales inicialmente se eligen a lazar dentro del
conjunto de datos.

Fuente: www.youtube.com/watch?v=ICm004p1ZXY - K-Means con


WEKA

Paso 2:

21
Posteriormente se realiza una operación mediante la cual se calcula la distancia en cada dato delo
conjunto con respecto a los centroides y se asigna el dato al grupo del centroide que este más
cercano a ese dato. Después de hacer la asignación de todos los datos del conjunto a cada
centroide, se deben recalcular los centroides, con el fin de que estos vayan tomando su lugar en
el centro de cada clúster.

Fuente: www.youtube.com/watch?v=ICm004p1ZXY - K-Means con WEKA

Paso 3:
Una vez terminado el proceso con todos los datos del conjunto, se
observa que cada centroide se desplaza desde su lugar inicial hasta
el lugar de la media del clúster. Cada vez que se modifique los datos
se debe recalcular la media del cluster.

Fuente: www.youtube.com/watch?v=ICm004p1ZXY - K-Means con WEKA

Paso 4:
Se vuelven a repetir los pasos dos y tres, hasta que se logre la
convergencia ideal.

22
Fuente: www.youtube.com/watch?v=ICm004p1ZXY - K-Means con WEKA

Farthest first: escoge un elemento de los datos al azar como primer centroide. A
continuación, calcula la distancia entre cada uno de los elementos restantes y dicho centroide.
Por último, define como nuevo centroide a aquel elemento que esté más alejado. Repite los
cálculos de distancia y realiza las asignaciones hasta tener los k representantes de los clusters.
Gracias al procedimiento que sigue farthest first son necesarias menos operaciones de reajuste de
clusters y reasignación de centroides, esto brinda una mejora en cuanto a la velocidad de
agrupamiento con respecto a la inicialización aleatoria.

Generación de la prueba del diseño

Del conjunto total de datos el cual consta de 100.000 registros, se saca un sub-conjunto del 10%,
es decir 10.000 registros los cuales se seleccionaron de manera aleatoria entre los 11
departamentos en los cuales se presenta el mayor número de accidentes de tránsito y entre estos
se eligieron las ciudades con mayor índice de accidentalidad.

Este subconjunto (10%) se define como el conjunto para realizar el entrenamiento (datos de
prueba) y medir la calidad del modelo y el conjunto del 100% de los datos se define como el
conjunto de datos de validación.

8.2. Construcción del Modelo

23
En este reporte se puede analizar lo siguiente:

Instancias: 10.001 (registros)


Atributos: 8 – Todos seleccionados
Modelo utilizado: full training set. Es decir un algoritmo full de Farthest first.

Como resultado de usar la técnica de minería de datos denominada Clustering o agrupación y


específicamente el algoritmo Farthest first. Se generó un modelo con cuatro grupos con las
siguientes características:

K=4

Clúster 0: conformado por el 32% de los datos, y muestra los accidentes de tránsito cuyas
víctimas fueron lesionados.
Clúster 1: conformado por el 9% de los datos, y muestra los accidentes de tránsito cuyas víctimas
fallecieron.

24
Clúster 2: es el más grande de todos, está conformado por el 38% de los datos, muestra los
accidentes de tránsito cuyas víctimas fueron lesionados.

Clúster 3: conformado por el 22% de los datos, muestra los accidentes de tránsito cuyas víctimas
fueron lesionados.

8.3. Evaluación del Modelo

El modelo cumple con los criterios de éxito del negocio en cuanto dado que muestra
información relevante sobre las características generales de los móviles que ocasionan lo
accidentes de tránsito, como también brinda información útil de comportamientos y puntos
críticos con el fin de mejorar la operación de la fuerza pública y prevenir accidentes.

Se presentaron diversos inconvenientes al momento de ejecutar tanto el modelo Kmeans, no fue


posible ejecutarlo, lo cual nos obligó a revisar nuevamente la fase de exploración de los datos
con el fin de identificar los errores que no impedían dicha ejecución, por este motivo elegimos
trabajar con Farthest first que es una variación del Kmeans.

EVALUACIÓN
8.4. Evaluación de los resultados

Desde el punto de vista del negocio se considera que el modelo de Farthest first es factible toda
vez que permite establecer relaciones y encontrar características similares entre los datos
obtenidos de los reportes de accidentes de tránsito.

En el grafico que se muestra a continuación se observa que en los departamentos de Antioquia y


Valle es donde se presenta el mayor número de accidentes de tránsito y la edad promedio de los
lesionados oscila entre los 10 y los 40 años.

25
8.5. Proceso de revisión

El proceso de modelado de Farthest first se ejecutó como se tenía previsto, sin embargo el
modelo SimpleKmeans no fue posible ejecutarlo toda vez que se presentó un error en la data, el
cual no permitió la ejecución de dicho algoritmo.

8.6. Determinación de los próximos pasos

Con el modelo Farthest first se logró obtener información que permite detectar características
acerca de los índices de accidentalidad en Colombia, lo cual permite tomar decisiones más
acertadas en cuanto a estrategias que conlleven a la reducción de estos índices.

Se observa que hace falta obtener información más detallada como por ejemplo la ubicación más
detallada de la ocurrencia de los hechos, a futuro se requiere explorar otras fuentes de datos que
permitan incluir nuevas variables (sociales, económicas, demográficas), así como el estudio de
otros modelos y técnicas de data mining.

26
Observamos la franja horaria y la edad de ocurrencia, encontramos que la media de edad con
mayor accidentalidad es entre 21 y 34 años con una cantidad de 996 hechos, su gran porcentaje
en la noche, y la figura abajo muestra una cantidad superior en los hombres.

27
9. DESPLIEGUE = DESARROLLO

9.1. Desarrollo del plan


Se requiere identificar a los actores que estarán involucrados en la distribución de los
resultados de este ejercicio de minería de datos como son Altos mandos de las fuerzas
militares y de Policía, Directivos del PSCN, del Invias, del Ministerio de Transporte,
personal uniformado que custodia las vías, y demás interesados.

9.2. Plan de Supervisión y Mantenimiento

Se recomienda realizar Back up de la información de Minería de datos de manera mensual,


dado que concuerda con los comités intersectoriales de seguridad en carreteras.

Los resultados del modelo aplicado de minería de datos se pueden visualizar en aplicaciones
de visualización que permitan generar gráficas, así como en hojas de cálculo de Excel.

9.3. Documentación de la Implementación

Los resultados del modelo aplicado de minería de datos se pueden visualizar en aplicaciones
de visualización que permitan generar gráficas, así como en hojas de cálculo de Excel.

9.4. Descripción de los requerimientos Mínimos

Descripción de los requerimientos mínimos en hardware y software necesarios para el buen


funcionamiento del programa.

28
CONCLUSIONES
Para efectos de ejecución y practica en minería de datos se ubica una base con registros
suficientes que permitan obtener un tamaño de muestra con sufrientes atributos que de igual
forma se puedan modelar y analizar en la herramienta Weka. Lo que al momento se realiza y
presta valor es el entendimiento y definición de la importancia del negocio, que para este trabajo
se considera de gran interés para entidades del estado y particulares actores principales de los
datos suministrados.

29
ANEXOS
Anexo 1: Costos
Anexo 2: Cronograma – Gantt

30
REFERENCIAS
Dataprix. (na de na de na). El modelo de referencia CRISP-DM. Obtenido de Dataprix :
http://www.dataprix.com/la-metodolog%C3%AD-crisp-dm
Eibe Frank, M. A. (na de na de 2016). The Weka - Workbench. Obtenido de University of
Waikato: https://www.cs.waikato.ac.nz/ml/weka/Witten_et_al_2016_appendix.pdf
Grancolombiano, P. (na de na de 2011). Introduccioón al desarrollo del conocimiento. Obtenido
de Politecnico Grancolombiano: https://poli.instructure.com/courses/7484/files/1452600?
module_item_id=438290
Marqués, M. P. (na de na de 2014). Minería de Datos a través de ejemplos . Obtenido de Rc
Libros: http://www.rclibros.es/pdf/capitulo_mineria.pdf
Mauricio Lopez Bohorquez, L. C. (03 de 04 de 2018). Cifras sobre fallecidos y lesionados en
hechos de tránsito. Obtenido de Observatorio Nacional de Seguridad Vial:
https://ansv.gov.co/observatorio/?op=Documentacion&id=49&sec=16
Organización Mundial de la Salud, S. L. (na de 03 de 2010). Plan Mundial para el decenio de
acción para la seguridad vial 2011 -2020. Obtenido de World Health Organization:
http://www.who.int/roadsafety/decade_of_action/es/
Wikipedia. (05 de 12 de 2018). K-medias. Obtenido de Wikipedia:
https://es.wikipedia.org/wiki/K-medias

31

También podría gustarte