Está en la página 1de 8

Investigadores reconocidos por Colciencias 2017: análisis de la

información basada en el uso de la metodología CRISP-DM

G Afanador-Arias1 and CA Santana-Duarte2

Facultad de ingeniería. Ingeniería de Sistemas, Universidad Francisco de Paula Santander,


Ocaña, Colombia.

E-mail: gafanadora@ufpso.edu.co1 casantanad@ufpso.edu.co2

Resumen. Información actualizada sobre los grupos de investigación, Desarrollo Tecnológico


o de innovación y los investigadores del país, sus actividades y los resultados logrados para
generar conocimiento sobre las capacidades, fortalezas, debilidades y potencialidades de
quienes integran el sistema nacional de CTel. Según cifras de Colciencias para el año 2017 se
registraron 13.001 investigadores que fueron reconocidos. Este documento es el resultado de la
aplicación de técnicas de minería de datos utilizando la metodología CRISP-DM. De esta
manera, fue posible analizar la relación entre los datos y generalizar la información sobre la
forma de permitir que la situación se integrará con los métodos de prevención y evaluación.

1. Introducción

Para cumplir con la misión de fomentar la Ciencia, la Tecnología y la innovación en Colombia,


Colciencias debe identificar cuáles son las instituciones y personas que participan en las actividades de
investigación y desarrollo en el país, estableciendo, que producen; como lo hacen; que tipo de
producto obtienen; que talento humano forman; como se relacionan entre sí; y, en general, cual es la
dinámica de su actividad. [1]

La obtención de la información anteriormente especificada se constituye en un soporte para:

 Proveer, a la comunidad interesada en temas de CTel, información actualizada acerca de las


actividades desarrolladas por los grupos de investigación, desarrollado tecnológico o de
innovación nacionales y de los investigadores.
 Establecer las capacidades en investigación, desarrollo tecnológico, innovación, formación de
talento humano, apropiación social del conocimiento y creación que tiene la comunidad
dedicada a CTel, en el país.
 Evaluar el potencial y el desempeño de los grupos investigación, desarrollo tecnológico, o de
innovación, centros de investigación o de desarrollo tecnológico y demás entes del sistema
nacional de CTel que desarrollan investigación.
 Identificar el recurso humano involucrado en actividades de CTel en Colombia.
 Determinar cuáles son las líneas de investigación desarrolladas en el país y cuál ha sido su
evolución.
 Diseñar, implementar y evaluar políticas públicas en CTel.

2. Metodología

Apoyándonos en esta investigación y teniendo en cuenta que, dado que su definición es un conjunto de
métodos que se siguen en una investigación científica, un estudio o una exposición doctrinal.
Se utilizará el enfoque cuantitativo, ya que permite utilizar la colección de datos para probar hipótesis
basadas en la medición numérica y el análisis estadístico, con el fin de establecer patrones de teorías
de comportamiento y de prueba [2].
Se analizarán las variables recolectadas unas con otras para conformar un estudio que tenga relación.
Con el fin de llevar a cabo el proceso de minería de datos, se utilizó un conjunto de datos de
investigadores reconocidos por Colciencias obtenida desde el sitio de datos abiertos oficial del
Gobierno Digital Colombiana. Estos datos corresponden del año 2017. El conjunto de datos abiertos
tratados, tiene un total de 24 atributos, entre los que se consideran información de carácter general,
tales como la fecha del evento, el departamento, el género, nivel de formación, entre otros.

3. Análisis y discusión de los resultados


conocimiento del negocio
Teniendo en cuenta los datos obtenidos del sitio oficial de datos abiertos del Gobierno Digital de
Colombia; conteniendo los investigadores reconocidos por Colciencias en el año 2017 en el país, se
encontraron 13.001 investigadores que participaron en dichos reconocimientos.

Los resultados que se obtienen en los procesos de investigación, desarrollo tecnológico o de


innovación, y responden al plan de trabajo, las líneas de investigación y los proyectos del grupo. Al
grupo se le valorará entonces, por el tipo de resultado que obtenga. A partir de la producción de un
grupo se calcularán una serie de indicadores para el modelo de medición y de esta forma será
visibilizado en la plataforma ScienTI- Colombia.

La comprensión de los datos

Se investigó análisis de un grupo de datos relacionados con los investigadores reconocidos por
Colciencias en Colombia durante el transcurso del año 2017, que determinaron los factores que
generan este tipo de eventos. A continuación, la Tabla 1muestra los atributos que conforman el
conjunto de datos con 13.001 instancias y 24 atributos
Tabla 1. Atributos
ATRIBUTOS DESCRIPCIÓN
Nombre de convocatoria Convocatoria
Año de convocatoria ¿En qué año se produce?
Genero de investigador Genero del Investigador
Municipio de nacimiendo de investigador Del Investigador
Departamento nacimiendo de investigador Del Investigador
País de nacimiento de investigador Del Investigador
Región de nacimiento de investigador Del Investigador
Dane ubicación nacimiento Del Investigador
Nivel de formación Del Investigador
Nombre de nivel de formación Del Investigador
Importancia nivel de formación Del Investigador
Categoría alcanzada Del Investigador
Nombre de categoría Categoría que se encuentra el investigador
Orden de importancia de categoría Del Investigador
Promedio de edad Del Investigador
Municipio de ubicación de investigador Donde reside el Investigador
Departamento de ubicación de investigador Donde reside el Investigador
País de ubicación de investigador Donde reside el Investigador
Región de ubicación de investigador Donde reside el Investigador
Dane ubicación investigador Donde reside el Investigador
Identificador de área Donde reside el Investigador
Especialidad área conocimiento Del investigador
Área conocimiento Del investigador
Gran área de conocimiento Del investigador

Preparación de los datos

La preparación de los datos se realizó de la siguiente manera:


1. instancia inicial = 13.001
2. instancias eliminadas = 0
3. atributos iniciales = 24
4. Atributos eliminado = 0
5. Criterios para la limpieza de datos: corrección de caracteres especiales, la relevancia de los atributos
y homogeneidad en la instancia atributos, por ejemplo.

El resultado de la preparación de los datos mostró lo siguiente:

Las instancias para modelar = 13.001


Atributos para relacionar = 0

Modelado

Técnica de realización de la aplicación Weka, algoritmos de agrupamiento que buscan grupos de


instancias con características similares, según un criterio de comparación entre valores de atributos
definidos en los algoritmos.

Técnica: SimpleKMeans

Herramienta: 3.9.2 Weka


Figura 1. El resultado de la aplicación de este algoritmo

Al analizar la información de algoritmo, varios grupos se relacionan en la Figura 1; los grupos agrupan
la información que apunta donde frecuenta el resultado, como ciencias biológicas que es el área de
especialidad del investigador, teniendo en cuenta los demás datos mostrados.

Evaluación

Figura 2. Sexo de investigador.

Teniendo en cuenta la información proporcionada por Weka en la Figura 2, se puede deducir que el
sexo masculino es el más involucrado como investigador.

Figura 3. Área de acontecimiento

Teniendo en cuenta la información proporcionada por Weka en la Figura 3, se puede deducir que
ciencias biológicas es el área más frecuente del investigador.
Figura 4. Departamento nacimiento de investigador.

Teniendo en cuenta la información proporcionada por Weka en la Figura 4, se puede deducir que
Bogotá es el departamento donde más investigadores nacieron.

Figura 5. Departamento de ubicación de investigador

Teniendo en cuenta la información proporcionada por Weka en la Figura 5, se puede deducir que el
departamento de Bogotá es donde más investigadores hay.

La Figura 6. Nivel máximo de formación alcanzado.

Teniendo en cuenta la información proporcionada por Weka en la figura 6, se puede deducir que 6458
personas alcanzaron el nivel máximo de formación alcanzado.
La Figura 7. Nombre de nivel de formación máximo.

Teniendo en cuenta la información proporcionada por Weka en la Figura 7, se deduce que 6458
investigadores tienen doctorados.
Figura 8. Nombre de categoría alcanzada del investigador.

Teniendo en cuenta la información proporcionada por Weka en la Figura 8, se deduce que gran parte
de los investigadores están en la categoría junior.

La Figura 9. País de nacimiento de investigador.

Teniendo en cuenta la información proporcionada por Weka en la Figura 9, se deduce que el país de
nacimiendo de los investigadores es en Colombia que es donde más hay.
Figura 10. Promedio de edad.

Teniendo en cuenta la información proporcionada por Weka en la Figura 10, se puede deducir que el
promedio de edad de los investigadores.

Figura 11. Región de nacimiento investigador.

Teniendo en cuenta la información proporcionada por Weka en la Figura 11, se describe que la región
del distrito capital es el lugar más frecuente de nacimiento de los investigadores.

Despliegue o implantación

Los datos anteriores presentados y analizados, describen una serie de caracterizaciones que están
relacionados. Estas caracterizaciones determinadas en el análisis pueden funcionar como una ayuda
para predecir posibles hechos relacionados con futuras convocatorias realizadas por Colciencias;
Además, este tipo de información analizada sirve como una guía para desarrollar campañas sociales en
las comunidades con mayores investigadores, con el objetivo de motivar la investigación.

4. Conclusiones
El presente trabajo ha demostrado no sólo que es posible aplicar la minería de datos a la información
relacionada con los investigadores reconocidos por Colciencias en el año 2017 en Colombia, sino que
también representa un alto valor añadido para el análisis y la generación de nuevos conocimientos.
La experiencia obtenida mediante el análisis de los datos sobre los investigadores se deja inferir que, si
bien existen herramientas que permiten la recolección y análisis de grandes cantidades de datos, aún
existe información que actualmente no se utiliza en toda su dimensión.
El uso de minería de datos para el análisis de este tipo de información ha demostrado ser prometedor,
teniendo en cuenta que sus diferentes aplicaciones han permitido relacionar a los investigadores la
motivación de participar en dichos eventos.
Hay herramientas de minería de datos que ofrecen apoyo en el establecimiento de relaciones entre
variables para analizar aspectos de un fenómeno que se podía aislar previamente.
El uso de una herramienta como Weka era importante desarrollar un proceso de minería de datos; este
tipo de herramientas es fundamental, ya que además de permitir el uso de diferentes algoritmos, sino
que también optimiza el tiempo de generación de los resultados del análisis en cuestión.

Referencias

[1] mediciondegrupos-actene2015.pdf
[2] Hernández Sampieri-R y T Mendoza 2018 Metodología de la Investigación (México DF:
McGraw-Hill Interamericana)
[3] https://www.datos.gov.co/Ciencia-Tecnolog-a-e-Innovaci-n/INVESTIGADORES-
RECONOCIDOS-POR-COLCIENCIAS-2017/myet-x3bu/data
[4] https://colciencias.gov.co/node/2957
[5] https://www.monografias.com/docs110/data-mining-mineria-datos-conocimiento/data-mining-
mineria-datos-conocimiento.shtml
[6] anexo_1._documento_conceptual_modelo_medicion_de_grupos_e_investigadores_2017_-
_12_05_2017_protected.pdf

También podría gustarte