Documentos de Académico
Documentos de Profesional
Documentos de Cultura
MINERÍA DE DATOS
1
TABLA DE CONTENIDO
1. PLANTEAMIENTO DEL PROBLEMA Y JUSTIFICACIÓN........................................3
2. OBJETIVOS...........................................................................................................................4
2.1. OBJETIVO GENERAL.................................................................................................4
2.2. OBJETIVOS ESPECÍFICOS........................................................................................4
3. ANTECEDENTES.................................................................................................................5
4. MARCO TEÓRICO...............................................................................................................6
5. COMPRENSIÓN DEL NEGOCIO......................................................................................9
5.1. Determinar los objetivos del negocio.............................................................................9
5.1.1. Criterios de éxito del negocio..........................................................................................10
5.2. Evaluar la situación......................................................................................................10
5.2.1. Inventario de Recursos....................................................................................................10
5.2.2. Requerimientos y Restricciones......................................................................................11
5.2.3. Riesgos y Contingencias...................................................................................................12
5.2.4. Terminología....................................................................................................................13
5.2.5. Costos y beneficio.............................................................................................................14
5.3. Determinar los objetivos de datamining.....................................................................15
5.3.1. Criterios de éxito..............................................................................................................16
5.4. Elaborar el plan del proyecto.......................................................................................16
6. COMPRENSIÓN DE LOS DATOS...................................................................................18
6.1. Colección de datos inicial.............................................................................................18
6.2. Describir los datos.........................................................................................................18
6.3. Explorar y calidad de datos..........................................................................................19
7. PREPARACIÓN DE LOS DATOS....................................................................................19
7.1. Seleccionar datos...........................................................................................................19
7.2. Limpiar los datos...........................................................................................................20
7.3. Construir datos..............................................................................................................20
7.4. Integrar los datos..........................................................................................................20
7.5. Formatear los datos......................................................................................................21
8. MODELADO........................................................................................................................21
8.1. Tarea: Escoger la Técnica de Modelado.....................................................................21
Generación de la prueba del diseño.......................................................................................23
8.2. Construcción del Modelo..............................................................................................24
8.3. Evaluación del Modelo..................................................................................................25
2
8.4. Evaluación de los resultados........................................................................................25
8.5. Proceso de revisión........................................................................................................26
9. DESPLIEGUE = DESARROLLO......................................................................................28
CONCLUSIONES.......................................................................................................................29
ANEXOS.......................................................................................................................................30
REFERENCIAS...........................................................................................................................31
3
Dado lo anterior, y con el fin de contribuir con el cumplimiento de uno de los principales
objetivos del Programa en Seguridad en Carreteras Nacionales, en cuanto a lograr una reducción
en la accidentalidad y el fortalecimiento de la cultura vial, surge la necesidad de desarrollar una
estrategia para la identificación temprana y la prevención de accidentes, para este fin se plantea
recurrir a la minería de datos, que permita la identificación de patrones en accidentes de tránsito
en Colombia durante el periodo comprendido entre las vigencias 2014 a 2017, mediante el
proceso de extracción y análisis de datos los cuales reposan en la base de datos “Lesiones y
Homicidios en accidentes de tránsito a nivel nacional 2014 – 2017” datos suministrados al
PSCN por la Dirección de Tránsito y Transporte y el Grupo de Criminalidad de la Policía
Nacional.
Con este proyecto se pretende generar conocimiento valioso el cual apoye la toma de
decisiones para construir una de política pública vial asertiva, apoyo certero en la estructuración
y desarrollo de estrategias, planes y programas sostenibles orientados a la reducción de la
accidentalidad, como el control operativo de la fuerza pública focalizado en los puntos críticos
de mayor siniestralidad, con la finalidad de minimizar el número de muertes y lesiones en estos
lugares, toda vez que está demostrado que la aplicación de la ley salva vidas.
2. OBJETIVOS
2.1. OBJETIVO GENERAL
Identificar por medio de la aplicación de técnicas de Minería de datos patrones los cuales
permitan caracterizar la accidentalidad en Colombia y así contribuir en su prevención.
4
Realizar actividades que filtren y organicen los datos relevantes para esta
investigación.
Seleccionar una o varias técnicas y algoritmos de minería de datos mediante el uso
de la herramienta WEKA.
3. ANTECEDENTES
Según el Plan Mundial para el decenio de acción para la seguridad vial 2011 – 2020 de la
organización mundial de la salud, cada año mueren cerca de 1,3 millones de personas en las
carreteras del mundo entero, es decir más de 3.000 defunciones al día de las cuales más de la
mitad de ellas no viajaban en automóvil. Entre 20 y 50 millones de personas más padecen
traumatismos no mortales, los cuales constituyen una causa importante de discapacidad en todo
el mundo. Los accidentes de tránsito son una de las principales causas de muerte en todos los a
nivel mundial, aproximadamente el 90% de las defunciones por accidentes de tránsito tienen
lugar en los países de ingresos bajos y medianos, donde se halla menos de la mitad de los
vehículos matriculados en todo el mundo. (Organización Mundial de la Salud, 2010).
Según los registros del Instituto Colombiano de Medicina legal y Ciencias Forenses,
durante el periodo comprendido entre el año 2014 y el año 2017 por lo menos 200.494 personas
han sido víctimas de accidentes de tránsito, de los cuales el 12.57% han fallecido a consecuencia
de estos hechos. A su vez por cada persona que pierde la vida en accidentes de tránsito, siete
personas resultaron lesionadas en eventos similares durante dicho periodo de tiempo. Es decir
que por cada persona que falleció por esta causa en Colombia durante el 2017, se registraron seis
casos de lesiones no fatales.
5
4. MARCO TEÓRICO
6
Descriptiva: Busca establecer patrones que expliquen y exploren las
propiedades de los datos examinados. Dentro de las técnicas descriptivas se
encuentran los arboles de decisión, la inducción neuronal, regresión, series
temporales. (Grancolombiano, 2011).
Fase 3: Preparación de los datos: la preparación de los datos se lleva a cabo con el fin de
adáptalos de tal manera que sean óptimos para aplicar la técnica elegida. Se debe realizar un
preprocesamiento sobre los atributos mediante el cual se identifiquen valores extraños, faltantes,
valores no identificados, en diferentes formatos, entre otros. Las actividades para desarrollar en
esta fase son: Selección de los datos, limpieza de los datos, construir datos, integración de los
datos y formatear los datos.
Fase 4: Modelamiento: se definen las técnicas de modelado específicas que sean más
apropiadas para el proyecto, se realizan las pruebas de calidad y validez del modelo, con la
descripción de parámetros del modelo y finalmente se interpreta y evalúa el modelo. Esta fase se
7
constituye por las siguientes tareas: Selección de la técnica de modelamiento, generación del
diseño de pruebas, construcción del modelo, evaluación técnica del modelo.
Fase 5: Evaluación del negocio: se procede a la generación y evaluación del modelo, no
desde el punto de vista de los datos, sino del cumplimiento de los objetivos de la empresa. Si el
modelo es válido en función de los objetivos establecidos en la primera fase, se procede al
despliegue del modelo. Esta fase abarca las actividades: Evaluación de los resultados del
negocio, revisión del proceso, determinación de los próximos pasos.
Fase 6: Despliegue: esta fase no determina la fase final del proyecto, dependiendo de los
requisitos esta fase puede ser la generación de un informe o la aplicación y revisión de
nuevamente de todo el proceso de minería. Consta de las siguientes tareas: Planificación del
despliegue, planificación del monitoreo y mantención, producir reporte final, revisar el proyecto.
Weka es un software de código abierto emitido bajo la Licencia Pública General de GNU
y se describe como una colección de algoritmos de aprendizaje automático para tareas de
minería de datos, la cual contiene herramientas para la preparación de datos, clasificación,
regresión, agrupación, extracción de reglas de asociación y visualización. (Eibe Frank, 2016)
El banco de trabajo de Weka incluye métodos para los principales problemas de minería
de datos como son: regresión, clasificación, agrupación o clustering, minería de reglas de
asociación y selección de atributos. Conocer los datos es un parte integral del trabajo, posee
muchas instalaciones de visualización de datos y herramientas de pre-procesamiento de datos,
todos los algoritmos toman su entrada en forma de una sola tabla relacional que puede leerse
desde un archivo o generarlo por una consulta de base de datos.
8
máquinas de vectores soporte, reglas de asociación, métodos de agrupamiento y modelos
combinados.
En cuanto a la interfaz gráfica, WEKA nos permite la opción de seleccionar entre cuatro
posibles entornos para acceder a las funcionalidades del programa, éstos son “Simple CLI”, que
es una consola que permite utilizar WEKA desde la línea de comandos, “Explorer”, que permite
controlar todas las operaciones que ofrece WEKA mediante una serie de paneles. El entorno
“Experimenter” permite la comparación sistemática de una ejecución de los algoritmos
predictivos de WEKA sobre una colección de conjuntos de datos.
Clustering, es una técnica que permite analizar y examinar datos que no se encuentran
etiquetados, formando conjuntos de grupos a partir de su similitud, su principal objetivo es
dividir un conjunto de objetos en dos o más grupos basándose en la similitud de un conjunto de
variables que los caracterizan. La similitud puede medirse a través de funciones de distancia y
los objetos se agrupan de acuerdo a toda la variable y por ello, una variable irrelevante puede
generar ruido en los resultados obtenidos.
9
accidentes de tránsito y detalles de las personas involucradas bien sea fallecidas o
lesionadas.
Obtener información relevante sobre las características generales de los móviles que
ocasionan lo accidentes de tránsito con el fin de predecirlos.
Hardware
Software
5.2.4. Terminología
Se utiliza un glosario de acuerdo al tipo de negocio del proyecto, con el fin de buscar
comprensión en la terminología a utilizar en su proceso.
Tabla 4 Glosario
13
GLOSARIO ESPECÍFICO DEL NEGOCIO
ID NOMBRE DESCRIPCIÓN
1 PSCN Programa de Seguridad en Carreteras Nacionales.
Evento, generalmente involuntario, generado al menos por un vehículo en
movimiento, que causa daños a personas y bienes involucrados en el e igualmente
2 Accidente de Trànsito
afecta la normal circulación de los vehículos que se movilizan por la vía o vías
comprendidas en el lugar o dentro de la zona de influencia del hecho.
Consiste en la prevención de accidentes de tránsito o la minimización de sus efectos,
especialmente para la vida y la salud de las personas, cuando tuviera lugar un hecho
3 Seguridad Vial
no deseado de tránsito. También se refiere a las tecnologías empleadas para dicho fin
en cualquier medio de desplazamiento.
Se refiere a los principios fundamentales que deben servir como guía para el gobierno
de una nación. Las políticas de estado no deberían asociarse a un gobierno concreto o
4 PolÍtIca de Estado una ideología determinada. Por el contrario, con esta denominación se alude a todos
aquellos asuntos que se consideran claves para defender los intereses generales de
una nación.
Son todas las personas que asumen un rol determinado, para hacer uso de las vías, con
5 Actores Viales
la finalidad de desplazarse de un lugar a otro.
Desde una perspectiva antropológica, es la manera como los seres humanos viven,
6 Cultura Vial sienten, piensan y actúan en, desde y para el cotidiano de los espacios de
movilización y desplazamiento.
Una base de datos es un “almacén” que nos permite guardar grandes cantidades de
7 Base de datos información de forma organizada para que luego podamos encontrar y utilizar
fácilmente.
Alteración o daño que se produce en alguna parte del cuerpo a causa de un golpe,
8 Lesión
enfermedad o accidente.
El análisis costo beneficio se realiza, sobre el presupuesto requerido para la ejecución del
proyecto y el beneficio que se espera tener en su aplicación.
14
La minería de datos para la organización se convierte en una herramienta estratégica para
la toma de decisiones que para la que nos compete la hacen más asertiva en los datos que
suministra, siendo estos de calidad y con información oportuna, más que en un nivel competitivo
a nivel comercial.
El beneficio en cuanto a la inversión definida en el presente proyecto se refleja en la
información que se obtendrá y que evalúa puntos como:
1. Información que suministra permitirá establecer criterios para el aseguramiento de
cumplimiento en estándares de seguridad vial de los actores viales. Estos son
empresas u organizaciones que están en obligación de implementar y mantener los
planes estratégicos de seguridad vial y se movilizan por las vías del país.
2. Identificar comportamientos en vía como puntos críticos, para así definir herramientas
efectivas en el control de flotas vehiculares de las empresas, promoviendo cultura de
gestión del riesgo desde las fuentes generadoras de los mismos.
3. Identificación de peligros y generación de necesidades de evaluación de riesgos
viales.
4. Seguimiento conductual de los actores de las vías, que generen capacitaciones en
temas como manejo seguro de vehículos, socialización de políticas, estándares y los
planes estratégicos viales, todo en concordancia con los planes de movilidad segura y
sostenible que organizan entidades privadas y públicas en Colombia, encaminadas a
disminuir los índices de accidentalidad. (Ver anexo1. Costos)
5.3. Determinar los objetivos de datamining
15
Tabla 5 Salidas
Se establece como criterio de éxito del modelo, que el porcentaje de las instancias
correctas sea por lo menos del 65%. De no ser así se debe verificar la depuración de la data y/o
plantear modelos diferentes.
16
Tabla 6 Planificación de actividades
Una vez definidas las tareas y siguiendo el mismo orden en el desarrollo del proyecto, se elaboró
un diagrama de Gantt (ver archivo pdf: Cronograma PSCNI). La planificación y el tiempo
dedicado a cada tarea han sido basados en los requisitos de trabajo.
17
6. COMPRENSIÓN DE LOS DATOS
La fuente que proporciona los datos la suministras en formato CSV, en la base de datos se
observan datos no reportados o no identificados durante el reporte de un accidente en particular,
una de las posibles causas de esta falencias es que probablemente el personales encargado de
diligencias los formatos no lo realiza en el lugar de los hechos y luego olvida detalles. se
evidencia diversidad de formatos de fecha y hora, datos extraños y atributos poco relevantes para
este caso de investigación. Otro problema que suele presentarse es que posiblemente el personal
que digitaliza la información de los reportes de accidentes no lo realice de forma debida,
omitiendo atributos o introduciendo palabras erróneas.
Para tener una mejor visualización de la información se llevó a cabo la división de texto en
columnas, así como la unificación de formato de fecha y hora.
6.2. Describir los datos
Tabla 7Descripción de los datos
18
6.3. Explorar y calidad de datos
Aunque el programa de seguridad en carretas nacionales cuenta con ese tipo de información
acerca de accidentes de tránsito a nivel nacional, los datos poseen algunos atributos poco
relevantes para este proyecto como son: arma empleada, clase de empleado, profesión, cantidad
y código Dane. De otro lado los datos carecen de detalles como por ejemplo la ubicación exacta
de la ocurrencia de los hechos y la falta de estandarización en el método utilizado para la captura
de los datos, con lo cual se podrían disminuir los errores de digitación y aumentar la fiabilidad de
los datos.
A pesar de lo anteriormente descrito, se cuenta con buenos atributos para el análisis de Minería
de datos que se pretende llevar a cabo, dado que nos van a permitir identificar patrones acerca de
las características de los móviles que ocasionan este tipo de accidentes viales, como son
ubicación de departamentos y ciudades de mayor incidencia, días y hora en que se presenta
mayor número de eventos, actores viales más involucrados en estos hechos, tipo de fatalidad del
accidente, entre otros.
Los datos que no están completos y ellos son relevantes para la limpieza se deberán entonces
eliminar toda vez que al ser estadísticas no es posible encontrarlas al detalle.
Los datos entregados tenían formatos diferentes unos de otros por lo cual se estandariza a un solo
formato general.
Dada la naturaleza del programa en carreteras nacionales se hacen importantes los siguientes
atributos:
- Clase
- Fecha
- Departamento
- Día
- Franja Horaria
- Clase de sitio
- Edad
- Sexo
19
Estos atributos brindan información en diferentes formas de consulta que permiten identificar
requisitos para la incorporación de campañas, programas más específicos que den lugar a una
prevención y disminución de índices de accidentalidad.
7.2. Limpiar los datos
Un atributo derivado puede obtenerse como lo es “Franja horaria” surge del atributo existente
hora, con el fin de segmentar rangos de horarios, donde se busque clasificar categorías de
acuerdo a esos horarios. Los segmentos utilizados son Mañana (06:00am – 11:59am), Tarde
(12:00pm – 5:59pm), Noche (06:00 pm – 11:59pm)
Tabla 9 Ejemplo atributos horarios
20
No aplica debido a que solo se tiene una fuente de datos.
7.5. Formatear los datos
En cuanto al formateo se tendrá en cuenta las características que de cada registro se visualice
manteniéndolos uniformes o estandarizados en toda la base de datos, estos son:
Caracteres de tipo de calendario, hora, fecha, días, años, caracteres de texto o numéricos,
8. MODELADO
8.1. Tarea: Escoger la Técnica de Modelado
El modelo que mejor se adapta a los objetivos del proyecto es la Técnica de Clustering,
mediante el algoritmo SimpleKmeans el cual es un método de agrupamiento, que tiene como
objetivo la partición de un conjunto de n observaciones (datos) en k grupos (clusters) en el que
cada observación pertenece al grupo cuyo valor medio es más cercano. (Wikipedia, 2018)
Paso 2:
21
Posteriormente se realiza una operación mediante la cual se calcula la distancia en cada dato delo
conjunto con respecto a los centroides y se asigna el dato al grupo del centroide que este más
cercano a ese dato. Después de hacer la asignación de todos los datos del conjunto a cada
centroide, se deben recalcular los centroides, con el fin de que estos vayan tomando su lugar en
el centro de cada clúster.
Paso 3:
Una vez terminado el proceso con todos los datos del conjunto, se
observa que cada centroide se desplaza desde su lugar inicial hasta
el lugar de la media del clúster. Cada vez que se modifique los datos
se debe recalcular la media del cluster.
Paso 4:
Se vuelven a repetir los pasos dos y tres, hasta que se logre la
convergencia ideal.
22
Fuente: www.youtube.com/watch?v=ICm004p1ZXY - K-Means con WEKA
Farthest first: escoge un elemento de los datos al azar como primer centroide. A
continuación, calcula la distancia entre cada uno de los elementos restantes y dicho centroide.
Por último, define como nuevo centroide a aquel elemento que esté más alejado. Repite los
cálculos de distancia y realiza las asignaciones hasta tener los k representantes de los clusters.
Gracias al procedimiento que sigue farthest first son necesarias menos operaciones de reajuste de
clusters y reasignación de centroides, esto brinda una mejora en cuanto a la velocidad de
agrupamiento con respecto a la inicialización aleatoria.
Del conjunto total de datos el cual consta de 100.000 registros, se saca un sub-conjunto del 10%,
es decir 10.000 registros los cuales se seleccionaron de manera aleatoria entre los 11
departamentos en los cuales se presenta el mayor número de accidentes de tránsito y entre estos
se eligieron las ciudades con mayor índice de accidentalidad.
Este subconjunto (10%) se define como el conjunto para realizar el entrenamiento (datos de
prueba) y medir la calidad del modelo y el conjunto del 100% de los datos se define como el
conjunto de datos de validación.
23
En este reporte se puede analizar lo siguiente:
K=4
Clúster 0: conformado por el 32% de los datos, y muestra los accidentes de tránsito cuyas
víctimas fueron lesionados.
Clúster 1: conformado por el 9% de los datos, y muestra los accidentes de tránsito cuyas víctimas
fallecieron.
24
Clúster 2: es el más grande de todos, está conformado por el 38% de los datos, muestra los
accidentes de tránsito cuyas víctimas fueron lesionados.
Clúster 3: conformado por el 22% de los datos, muestra los accidentes de tránsito cuyas víctimas
fueron lesionados.
El modelo cumple con los criterios de éxito del negocio en cuanto dado que muestra
información relevante sobre las características generales de los móviles que ocasionan lo
accidentes de tránsito, como también brinda información útil de comportamientos y puntos
críticos con el fin de mejorar la operación de la fuerza pública y prevenir accidentes.
EVALUACIÓN
8.4. Evaluación de los resultados
Desde el punto de vista del negocio se considera que el modelo de Farthest first es factible toda
vez que permite establecer relaciones y encontrar características similares entre los datos
obtenidos de los reportes de accidentes de tránsito.
25
8.5. Proceso de revisión
El proceso de modelado de Farthest first se ejecutó como se tenía previsto, sin embargo el
modelo SimpleKmeans no fue posible ejecutarlo toda vez que se presentó un error en la data, el
cual no permitió la ejecución de dicho algoritmo.
Con el modelo Farthest first se logró obtener información que permite detectar características
acerca de los índices de accidentalidad en Colombia, lo cual permite tomar decisiones más
acertadas en cuanto a estrategias que conlleven a la reducción de estos índices.
Se observa que hace falta obtener información más detallada como por ejemplo la ubicación más
detallada de la ocurrencia de los hechos, a futuro se requiere explorar otras fuentes de datos que
permitan incluir nuevas variables (sociales, económicas, demográficas), así como el estudio de
otros modelos y técnicas de data mining.
26
Observamos la franja horaria y la edad de ocurrencia, encontramos que la media de edad con
mayor accidentalidad es entre 21 y 34 años con una cantidad de 996 hechos, su gran porcentaje
en la noche, y la figura abajo muestra una cantidad superior en los hombres.
27
9. DESPLIEGUE = DESARROLLO
Los resultados del modelo aplicado de minería de datos se pueden visualizar en aplicaciones
de visualización que permitan generar gráficas, así como en hojas de cálculo de Excel.
Los resultados del modelo aplicado de minería de datos se pueden visualizar en aplicaciones
de visualización que permitan generar gráficas, así como en hojas de cálculo de Excel.
28
CONCLUSIONES
Para efectos de ejecución y practica en minería de datos se ubica una base con registros
suficientes que permitan obtener un tamaño de muestra con sufrientes atributos que de igual
forma se puedan modelar y analizar en la herramienta Weka. Lo que al momento se realiza y
presta valor es el entendimiento y definición de la importancia del negocio, que para este trabajo
se considera de gran interés para entidades del estado y particulares actores principales de los
datos suministrados.
29
ANEXOS
Anexo 1: Costos
Anexo 2: Cronograma – Gantt
30
REFERENCIAS
Dataprix. (na de na de na). El modelo de referencia CRISP-DM. Obtenido de Dataprix :
http://www.dataprix.com/la-metodolog%C3%AD-crisp-dm
Eibe Frank, M. A. (na de na de 2016). The Weka - Workbench. Obtenido de University of
Waikato: https://www.cs.waikato.ac.nz/ml/weka/Witten_et_al_2016_appendix.pdf
Grancolombiano, P. (na de na de 2011). Introduccioón al desarrollo del conocimiento. Obtenido
de Politecnico Grancolombiano: https://poli.instructure.com/courses/7484/files/1452600?
module_item_id=438290
Marqués, M. P. (na de na de 2014). Minería de Datos a través de ejemplos . Obtenido de Rc
Libros: http://www.rclibros.es/pdf/capitulo_mineria.pdf
Mauricio Lopez Bohorquez, L. C. (03 de 04 de 2018). Cifras sobre fallecidos y lesionados en
hechos de tránsito. Obtenido de Observatorio Nacional de Seguridad Vial:
https://ansv.gov.co/observatorio/?op=Documentacion&id=49&sec=16
Organización Mundial de la Salud, S. L. (na de 03 de 2010). Plan Mundial para el decenio de
acción para la seguridad vial 2011 -2020. Obtenido de World Health Organization:
http://www.who.int/roadsafety/decade_of_action/es/
Wikipedia. (05 de 12 de 2018). K-medias. Obtenido de Wikipedia:
https://es.wikipedia.org/wiki/K-medias
31