Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Recebido/Submission: 16/05/2020
Iberian Journal of Information Systems and Technologies Aceitação/Acceptance: 20/07/2020
gerolonga@correo.udistrital.edu.co; cemontenegrom@udistrital.edu.co;
pagaonag@udistrital.edu.co
1
Universidad Distrital Francisco José de Caldas, Facultad de Ingeniería, Bogotá, Colombia.
2
Universidad Distrital Francisco José de Caldas, Facultad de Ingeniería, Bogotá, Colombia.
3
Universidad Distrital Francisco José de Caldas, Facultad de Ingeniería, Bogotá, Colombia.
Pages: 84–95
Abstract: Missing person is a problem that all countries should address; in the
worldwide context several gubernamental organizations and private initiatives
gather and make publicly available pictures and information of missing ones, for
the Colombian case this task is carried out by the El Instituto Nacional de Medicina
Legal y Ciencias Forenses. Considering that hundreds of people are reported
missing annually, this work seeks to expose patterns that characterize the cases of
disappearance in Colombia during 2017 found after a data mining process with the
intention of drawing attention to companies so that within their strategies of social
marketing they take into account the results obtained and can contribute to the
attention to this problem.
Keywords: Social marketing, Missing person, Data mining, Desicion rules,
Open data.
1. Introducción
En todo el mundo numerosas organizaciones buscan centralizar y hacer púbica
información sobre las personas reportadas como desaparecidas; en el caso de los
Estados Unidos el FBI y organizaciones como NameUs(National Missing and
Unidentified Persons System) y The National Center for Missing & Exploited Children
cumplen esta tarea, en el contexto internacional se pueden encontrar los poryectos
ICMP(International Commission on Missing Persons) y LOST(Learning Opportunities,
inStruments and Investigation Techniques to fight the growing phenomenon of missing
person in Europe) y en el caso Colombia los datos son reunidos en su mayoría por El
Instituto Nacional de Medicina Legal y Ciencias Forenses.
Aunque la mayoría de estos proyectos hacen disponible información útil como fotos
y datos de cada desaparecido, la generalidad de estos datos no puede ser analizada
fácilmente por cualquiera con la intención de hacerlo ya que se encuentra paginada
o con acceso limitado y no se brindan alternativas para hacerse con datasets que
contengan cientos de registros significativos. Adicionalmente casi todos los proyectos
mencionados anteriormente presentan solo estadísticas descriptivas de la información
pero no exponen conclusiones inferidas de la misma.
Teniendo en cuenta que anualmente cientos de personas son reportadas como
desaparecidas y que en Colombia en 2019 desaparecieron según El Instituto Nacional
de Medicina Legal y Ciencias Forenses 2528 hombres y 1427 mujeres, este artículo
hace una revisión de las herramientas y técnicas que se puede utilizar para analizar la
información de los desaparecidos y finalmente presenta un estudio de minería de datos
aplicado a un dataset público de casos de desaparición en Colombia en 2017 utilizando
la herramienta computacional WEKA(Waikato Environment for Knowledge Analysis)
(Hall et al., 2009) con la intención de exponer patrones que puedan servir de insumo
para el área de marketing social de un empresa interesada en aportar a la solución de
esta problemática.
con calidad de imagen parecida. Por otro lado (Mahdi et al., 2017) muestra cómo el
reconocimiento facial en cámaras de video necesita una buena condición de iluminación.
Otro de los desafíos de intentar la verificación facial de personas desaparecidas es el
paso del tiempo, por lo que es importante considerar la forma en que el envejecimiento
puede afectar el rendimiento de los algoritmos, en (Deb et al., 2017) los autores exponen
como resultado de un estudio longitudinal llevado a cabo utilizando aproximadamente
230234 imágenes, que los sistemas de reconocimiento facial “commercial off the shelf”
son capaces de reconocer a una persona con una tasa de éxito del 99% utilizando 8
imágenes por sujeto, siempre y cuando la diferencia de tiempo de las imágenes no
sea mayor a 8.5 años a partir de la cual el rendimiento de los algoritmos disminuye
drásticamente. En (Wang et al., 2017) se muestra cómo agregar información sobre la
edad cuando se utiliza una red neuronal profunda en el proceso de cross-age verification
puede aumentar el rendimiento en los algoritmos actuales.
En términos de la confianza que pueden proporcionar los datos públicos de personas
desaparecidas, el autor de (Duncan, n.d.) realizó un estudio comparando la información
proporcionada por la organización NameUs con los registros policiales. Aunque la
cantidad de registros que se pudieron comparar en la investigación fue muy limitada,
se descubrió que después de realizar un análisis estadístico; las variables edad, color de
ojos, color de cabello y altura informadas en los datos de NameUs son muy similares a el
contenido en los informes de arresto y la demora en la carga de información de NameUs
en comparación con la fecha de reporte de la desaparición a la policía no resultó tener un
impacto significativo en la precisión de la información reportada.
En (Babuta y Sidebottom, 2018) los autores analizan los datos de personas desaparecidas
en el Reino Unido y luego se centran en los casos de los 3352 niños reportados, dado
que su conjunto de datos tenía un identificador único para cada persona a través del
tiempo, en la investigación pretendían encontrar patrones temporales y descubrieron
que la cantidad de niños reportados como desparecidos 10 veces es mayor de lo que se
esperaría por azar y que el número de niños que se reportaron como desaparecidos 10 o
más veces bajo el cuidado de las autoridades es mayor que los que se reportaron como
desaparecidos 9 o menos. Aunque no hubo suficiente información para determinar una
relación explícita entre la dependencia del alcohol y las drogas, la población de niños
reportados como desaparecidos 10 o más veces, mostró un mayor nivel reportado de
dependencia a estas sustancias. Finalmente, el estudio muestra que los niños reportados
como desaparecidos tienen más probabilidades de ser reportados como desaparecidos
nuevamente en un lapso de cuatro semanas después del primer informe y esta
probabilidad disminuye con el paso del tiempo.
Para el análisis de los registros de personas desaparecidas, la minería de datos podría ser
una herramienta valiosa ya que “la minería de datos es el proceso de encontrar anomalías,
patrones y correlaciones dentro de grandes conjuntos de datos para predecir resultados”
(Prasdika y Sugiantoro, 2018). En (Blackmore et al., 2005) los autores trataron de encontrar
patrones en los datos de personas desaparecidas en Nueva Gales del Sur entre 1980 y 2000,
centrándose únicamente en fugitivos e intentos de suicidio o suicidios reportados en este
conjunto de datos. Usaron WEKA para generar reglas de decisión que pueden contribuir a
que los oficiales de policía determinen la causa de la desaparición de una persona, aunque
3. Metodología
Para el presente estudio del proceso común de minería de datos (Figura 1) dividimos
las etapas del análisis en selección de datos, exploración de datos, preprocesamiento y
extracción de patrones.
Figura 1 – Proceso de minería de datos. Fuente: Adaptado de (Kumar & Reinartz, 2018).
•• Grupo Edad.
•• Mayor/Menor de edad.
•• Ciclo de vida definitivo.
•• Género.
•• Estado civil.
•• Escolaridad ajustada.
•• Ancestro racial definitivo.
•• Estado de desaparición definitivo.
•• Localidad.
•• Zona de ocurrencia.
•• Clasificación de la desaparición.
•• Entidad que radica la desaparición.
•• Factor de vulnerabilidad.
•• Tipo de aparición definitiva.
•• Departamento del hecho.
•• Municipio del hecho.
•• Código del municipio.
También, visualizamos que de los 6202 reportes 2087 (33.5%) pertenecen a personas
entre 12 y 17 años y la mayoría de estos registros son de mujeres (Figura 4).
3.3. Pre-procesamiento
Antes de intentar usar cualquier algoritmo de minería de datos en los datos, es importante
asegurarse de que la información sea lo más limpia posible para obtener resultados
precisos y realistas, en nuestro caso visualizando los valores de los registros se encontró
que muchos de ellos contenían el valor de “sin información” que puede conducir a reglas
de decisión como “si las categorías A y B no tienen información, entonces C no tendrá
información”, esto esencialmente no nos dice nada útil sobre la persona desaparecida,
además inspeccionando las categorías de datos a partir de ahora denominados variables
nominales, está claro que algunas de ellas son redundantes, es decir que una se puede
calcular a partir de otra o muestra la misma información que otra, pero solo con un nivel
de agregación diferente, por eso decidimos eliminar algunas de las variables redundantes
o irrelevantes ( por ejemplo, el año es el mismo para todos los registros) a fin de obtener
reglas de decisión más cortas y disminuir el tiempo de cómputo.
Entre las variables que se retiraron del dataset final que se va a analizar están el año;
grupo de edad y mayor/ menor de edad ya que se pueden calcular a partir de ciclo
de vida definitivo; estado de desaparición definitivo que puede obtenerse de tipo de
aparición definitiva; clasificación de la desaparición por que tenía un 93% de registros
sin información; entidad que radica por que no aporta para determinar la causa de la
desaparición y departamento del hecho, zona de ocurrencia y municipio del hecho que
son redundantes con municipio y localidad. Luego de haber eliminado algunos de los
registros que contenían la mayoría de los valores “sin información” el conjunto de datos
final a procesar terminó conteniendo 3358 registros y 9 variables.
Entre las variables restantes elegimos utilizar como variable objetivo la causa
desaparición que contiene los valores de ausencia voluntaria, muerte, desaparición
forzada, involuntaria (trastorno mental) e involuntaria. De esta variable encontramos
que la distribución de los valores tienen un desbalanceo, 63% son ausencia voluntaria,
7% muerte, 0,41% desaparición forzada, 2,59% involuntaria (trastorno mental), 6,55%
involuntaria y un 20% de los valores faltantes restantes.
4. Resultados
Del experimentador de WEKA, obtenemos que de 100 evaluaciones, el algoritmo
obtuvo una precisión promedio de 72.93% con una desviación estándar de 2.39, por lo
que el proceso de minería de datos empleado funciona mejor que simplemente asignar
ausencia voluntaria como causa faltante a todos los registros que produciría un 63 %
de precisión.
Del modelo que produjo el conjunto final de reglas, obtuvimos que a pesar de que
el Área Bajo la Curva(ROC) para cada valor es mayor que 0.5, lo que indica que
nuestro algoritmo clasifica mejor que el azar; aparte de la desaparición voluntaria
y muerte, es evidente que la capacidad del modelo para clasificar los otros valores
es muy pobre ya que terminaron con una F-Measure por debajo de 0.3. (Tabla 1)
todos esto apunta a la necesidad de obtener un conjunto de datos más equilibrado
para que el algoritmo no se vea afectado por la mayoría de los valores que tienen la
misma clase.
WEKA también produce una matriz de confusión (Tabla 2) que es otra forma de
visualizar el rendimiento del algoritmo y muestra cómo muchos de los registros en el
conjunto de datos se clasificaron correctamente en la diagonal principal y en el resto
de las columnas aparece el número de clasificaciones erróneas en esa categoría, por
ejemplo para el registro de Ausencia Voluntaria 1864 se asociaron correctamente con su
verdadero valor de causa de desaparición.
a b c d e Clasificado como
1864 10 2 28 224 A = Ausencia voluntaria
87 119 1 3 26 B =Muerte
13 0 0 0 1 C = Desaparición forzada
D = Involuntaria
49 0 1 7 30
(trastorno mental)
126 27 1 8 58 E = involuntaria
A pesar del mal desempeño del modelo cuando trata de clasificar la mayoría de las clases,
se produjeron 38 reglas de decisión, aunque ninguna de ellas proviene de un nodo puro,
lo que significa que ninguna de estas reglas puede determinar un resultado de forma
única y aplicarlo resulta en algunos registros mal clasificados. Se decidió mantener la
combinación de minería de datos utilizada ya que C4.5(algoritmo en cual está basado
PART) es un algoritmo que ofrece la posibilidad de trabajar con datos categóricos sin
necesidad de codificarlos a números como sucede con otros métodos del estado del arte
de los problemas de clasificación, esto último es un punto muy importante ya que nos
es imperativo generar resultados con un alto nivel de interpretabilidad para facilitar la
generación de alternativas de solución o programas para las empresas interesadas en
abordar el problema.
Entre las reglas producidas, las que no son redundantes o triviales son:
Municipio = Mocoa: Muerte
5. Conclusiones
El estudio condujo una revisión de la información que es hecha pública de personas
desaparecidas en todo el mundo y qué patrones se pueden encontrar en los datos
disponibles para el caso colombiano utilizando minería de datos.
El dataset utilizado contenía varios valores con información faltante, por lo que la
mayor parte no se pudo utilizar en el estudio lo que muestra la necesidad de mejorar la
forma en que se registran estos datos en Colombia y también señala el hecho de que si
hubiera más información disponible públicamente, mejores conjuntos de datos podrían
formarse para analizarlos logrando resultados superiores e incluso se podrían encontrar
patrones temporales.
El dataset final resultó en un conjunto desbalanceo de registros que se utilizaron en
la extracción patrones, lo que limitó el rendimiento del algoritmo y la confiabilidad
de las reglas resultantes, sin embargo el proceso de extracción de datos mostró que
se pueden obtener inferencias útiles y vínculos interesantes entre la estratificación
socioeconómica, la edad, género y ubicaciones específicas de Colombia con los casos
de personas desaparecidas que pueden servir como insumo para el departamento
de marketing social de las empresas interesadas en ayudar a plantear soluciones
para el problema.
Algunas de las reglas obtenidas sugieren perfiles que son consistentes con los estudios
que se han realizado en Colombia, como la regla que establece a Ibagué como el
municipio donde se produce la desaparición forzada, lo que concuerda con (Caicedo y
Genneco, nd) donde afirman que Ibagué es la segunda ciudad con más desplazamientos
forzados en el país.
Para el caso de la regla que muestra como causa de muerte a las personas reportadas en
Mocoa, puede estar profundamente relacionado con el hecho de que en esa ciudad en
abril de 2017 murieron alrededor de 300 personas como consecuencia de una inundación
repentina como se informó en (Vásquez Santamaría et al., 2018).
En trabajos futuros, los resultados de esta investigación deben presentarse a las
organizaciones gubernamentales para que puedan explorar la utilidad de los resultados
obtenidos y motivarse para hacer públicos más datos para que se puedan realizar más
estudios. Se debe recopilar más información de los sitios web que exponen públicamente
los datos, como por ejemplo las publicaciones de desaparecidos en redes sociales y
consolidar una base de datos pública de imágenes de desaparecidos.
Referencias
Babuta, A., & Sidebottom, A. (2018). Missing Children: On the Extent, Patterns, and
Correlates of Repeat Disappearances by Young People. Policing: A Journal of Policy
and Practice. https://doi.org/10.1093/police/pay066
Blackmore, K., Bossomaier, T., Foy, S., & Thomson, D. (2005). Data Mining of Missing
Persons Data. In S. K. Halgamuge & L. Wang (Eds.), Classification and Clustering
for Knowledge Discovery (Vol. 4, pp. 305–314). Springer Berlin Heidelberg.
https://doi.org/10.1007/11011620_19
Caicedo, L. J. B., & Genneco, A. J. Q. (n.d.). DELITO DESPLAZAMIENTO FORZADO
POR LA VIOLENCIA. 17.
Deb, D., Best-Rowden, L., & Jain, A. K. (2017). Face Recognition Performance under
Aging. 2017 IEEE Conference on Computer Vision and Pattern Recognition
Workshops (CVPRW), 548–556. https://doi.org/10.1109/CVPRW.2017.82
Duncan, S. (n.d.). Unsolvable? Assessing the Accuracy of Missing Person Case Data. 117.
Fichas locales 2019 | Veeduría Distrital. (n.d.). Retrieved March 15, 2020, from
https://www.veeduriadistrital.gov.co/content/Fichas-locales-2019
Frank, E., & Witten, I. (1998). Generating Accurate Rule Sets Without Global
Optimization. Machine Learning: Proceedings of the Fifteenth International
Conference.
Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., & Witten, I. H. (2009). The
WEKA data mining software: an update. ACM SIGKDD Explorations Newsletter,
11(1), 10–18. https://doi.org/10.1145/1656274.1656278
Instituto Nacional de Medicina Legal y Ciencias Forenses. (2017). Base de datos
preliminar de personas reportadas como Desaparecidas Enero-Noviembre 2017.
https://www.datos.gov.co/. https://www.datos.gov.co/Estad-sticas-Nacionales/
Base-de-datos-preliminar-de-personas-reportadas-co/85g8-qemt
Kim, A., Oh, K., Jung, J.-Y., & Kim, B. (2018). Imbalanced classification of
manufacturing quality conditions using cost-sensitive decision tree ensembles.
International Journal of Computer Integrated Manufacturing, 31(8), 701–717.
https://doi.org/10.1080/0951192X.2017.1407447
Kumar, V., & Reinartz, W. (2018). Data Mining. In V. Kumar & W. Reinartz (Eds.),
Customer Relationship Management: Concept, Strategy, and Tools (pp. 135–155).
Springer. https://doi.org/10.1007/978-3-662-55381-7_7
Mahdi, F. P., Habib, M. M., Ahad, M. A. R., Mckeever, S., Moslehuddin, A. S. M., & Vasant,
P. (2017). Face recognition-based real-time system for surveillance. Intelligent
Decision Technologies, 11(1), 79–92. https://doi.org/10.3233/IDT-160279
Prasdika, P., & Sugiantoro, B. (2018). A Review Paper on Big Data and Data Mining
Concepts and Techniques. IJID (International Journal on Informatics for
Development), 7(1), 33. https://doi.org/10.14421/ijid.2018.07107
Vásquez Santamaría, J. E., Gómez Vélez, M. I., & Martínez Hincapié, H. D. (2018). The
Mocoa tragedy: Example of a retrospective without an end point in the management
of the risk of disasters detonated by natural events? Revista de Derecho Uninorte,
50, 145–186. https://doi.org/10.14482/dere.50.0007
Wang, X., Zhou, Y., Kong, D., Currey, J., Li, D., & Zhou, J. (2017). Unleash the Black
Magic in Age: A Multi-Task Deep Neural Network Approach for Cross-Age Face
Verification. 2017 12th IEEE International Conference on Automatic Face & Gesture
Recognition (FG 2017), 596–603. https://doi.org/10.1109/FG.2017.75
Yadav, S., & Shukla, S. (2016). Analysis of k-Fold Cross-Validation over Hold-
Out Validation on Colossal Datasets for Quality Classification. 2016 IEEE
6th International Conference on Advanced Computing (IACC), 78–83.
https://doi.org/10.1109/IACC.2016.25
Yang, F., Zhang, Q., Wang, M., & Qiu, G. (2018). Quality Classified Image Analysis
with Application to Face Detection and Recognition. ArXiv:1801.06445 [Cs].
https://doi.org/10.1109/ICPR.2018.8545476
Yunda, J. G. (2019). Densificación y estratificación social en Bogotá: distribución sesgada
de la inversión privada. EURE (Santiago), 45, 237–257.