Presentado Por Evelyn Yaneth Cardozo Caviedes y Jhoan Sebastián Polania Diaz

APLICACIÓN DE DATA MINING A DATOS SUMINISTRADOS POR UNA CLÍNICA DE LA
CIUDAD DE NEIVA - HUILA (COLOMBIA) DE UN PERIODO DE 8 MESES DESDE ENERO A

AGOSTO DE 2017
Presentado por Evelyn Yaneth Cardozo Caviedes y Jhoan Sebastián Polania Diaz
I. ABSTRACT herramientas y técnicas que actualmente se utilizan para hallar

predicciones y/o patrones de un determinado conjunto de datos sin
This work was done in order to learn and study the techniques of importar el área de conocimiento.
Machine Learning & Data Mining applied to a data set supplied by a
clinic in the city of Neiva (Colombia) of a total time of 8 months Palabras Clave: Data Mining, Diagnóstico, Machine Learning,
beginning in January and ending in August of the year 2017 with a Neiva (Colombia), Ortopedia y Traumatología
total of 1121 records of persons, which was in operation, analyzing in
detail all the information of each patient attended there. The study
was performed quarterly by classifying each patient by its origin (city III. ESTADO DEL ARTE
or town coming from), regimen, diagnosis and other aspects; although
this clinic served people from several departments, the data were not a. Big Data en Colombia
enough to make an in-depth analysis and likewise it was possible to
find a pattern of the most frequent diseases so that only the results of
the patients attended in Neiva with a total of 254 people. En una encuesta realizada por la EMC [1] en la cual participaron 183
tomadores de decisiones de las TI (Tecnologías de la información) los
Both the statistical analysis, applying all the techniques as the cuales analizaron las implicaciones y el potencial de implementar Big
investigation gave a little worrisome results, since the majority of data en el país, se hizo énfasis en la siguiente información:
people were diagnosed in the category of Orthopedics and
Traumatology, being fractures caused by traffic accidents. This Más del noventa por ciento de los empresarios creen que la
implies that in this city there is a lack of a strong hand or, if they implementación de esta tendencia en sus sistemas será útil en la toma
exist, efficiency against the measures used to prevent more cases in de decisiones, la tercera parte de los encuestados consideran de por sí
particular and to ensure the welfare of all people both pedestrians and que esto también los ayudará a ser más competentes en el mercado, y
drivers. Therefore, the present article will gain its importance, as long dos terceras partes consideran que esta tecnología podría ayudar a
as it is taken as a guide by those professionals who wish to implement prevenir ataques cibernéticos, no obstante el 42% de los encuestados
tools and techniques that are currently used to find predictions and/or sostienen que no está dentro de sus planes el implementar esta
patterns of a given set of data regardless of the area of knowledge. tecnología pues refieren que tanto la experiencia como el instinto de
sus equipos ejecutivos son el factor fundamental para la toma de
Key Words: Data Mining, Diagnosis, Machine Learning, Neiva buenas decisiones para la compañía, esto deja en evidencia que en el
(Colombia), Orthopedics and Traumatology país carece de adopción de una cultura informática a diferencia con
otros países donde las decisiones se toman en base a estudios y
mediciones.
II. RESUMEN
A pesar de que el uso de big data es reciente, algunos de los
Éste trabajo se realizó con el fin aprender y estudiar las técnicas de empresarios conocen su impacto positivo en el proceso de análisis de
Machine Learning & Data Mining aplicado a un conjunto de datos datos y manejo de datos, pero al mismo tiempo su popularización
suministrados por una clínica en la ciudad de Neiva (Colombia) de un radica en la falta de presupuesto, conocimiento del tema y la cultura
tiempo total de 8 meses iniciando en Enero y finalizando en Agosto como principal causa.
del año 2017 con un total de 1121 registros de personas, la cual estaba
en funcionamiento, analizando detalladamente toda la información de b. Propuestas de Big Data apoyadas por MINTIC
cada paciente atendido allí. El estudio se realizó trimestralmente
En Colombia por medio de MINTIC, ha creado centros de excelencia
clasificando a cada paciente por su origen (ciudad o poblado
y apropiación (CEA) con el fin de centralizar el análisis de datos en
proveniente), régimen, diagnóstico y otros aspectos; a pesar de que
sitios estratégicos para explotar al máximo las capacidades en el
ésta clínica atendía a personas de varios departamentos los datos aún
análisis de datos. Los objetivos de los CEA son focalizar el análisis de
no eran bastantes para hacer un análisis profundo y de igual manera
datos a sectores aprovechables y productivos que hacen referencia a
de ser posible hallar un patrón de las enfermedades más frecuentes así
innovaciones para las áreas de ciberseguridad, formulación de
que solamente se tomaron los resultados de los pacientes atendidos
políticas públicas e internet de las cosas, entre otras. El proyecto hace
en Neiva con un total de 254 personas.
parte de la convocatoria 687 del MINTIC titulado CEA Big Data y
Tanto el análisis estadístico, aplicando todas las técnicas como la Data Analytics el cual busca generar soluciones respaldadas por las
investigación dieron unos resultados un poco preocupantes, ya que la TIC con aras de fortalecer el sector técnico del país, esta es una
mayoría de personas fueron diagnosticadas en la categoría de iniciativa que busca crear sectores especializados principalmente
Ortopedia y Traumatología, siendo fracturas causadas por accidentes dirigidos a universidades certificadas, empresas tanto líderes en Big
de tránsito. Lo que implica que en esta ciudad falta mano fuerte o en data como empresas que no pertenezcan al sector TIC, este
caso que existan, eficiencia frente a las medidas utilizadas para emprendimiento está vigente desde el 2014. La misión de los
prevenir más casos en particular y asegurar el bienestar de todas las denominados centros de excelencia busca posicionar a Colombia
personas tanto peatones como conductores. Por lo tanto, el presente como líder y referente en Big Data Analytics con beneficios de
artículo obtendrá su importancia, en la medida que sea tomado como innovación nacional.
una guía por aquellos profesionales que deseen implementar
CORPORACIÓN UNIVERSITARIA DEL HUILA “CORHUILA”
FACULTAD DE INGENIERÍA
datos. La implementación de esta tecnología permitiría la toma de

decisiones en tiempo real de manera eficiente y precisa, por no citar
c. Big Data y el sector Salud aplicaciones como detección de fraudes financieros, establecimientos
de nuevos modelos de precios o incluso resultados de búsquedas en la
Los pacientes, las clínicas, los hospitales tienen cantidades masivas de
web.
datos clínicos, en formatos escritos en papel o en herramientas de
software pero que permanecen sin utilizar por la dificultad e g. Data Center de IBM en Colombia
imposibilidad material de “digerirlos” de forma efectiva, por muy
buenos deseos que pueda tener el equipo sanitario. Lo cierto es que El proyecto consiste en un nuevo datacenter gestionado por IBM y
esta dificultad puede tener consecuencias tanto en el control de los que se ubica en Colombia, con esto se pretende hacer frente a las
gastos médicos como en la mejora de las tasas de mortalidad. Este es necesidades de una plataforma robusta y veloz que permite procesar,
el futuro de la salud, según ha publicado la prestigiosa revista Forbes: almacenar, transmitir y respaldar la información que se recoge desde
los big data representa una oportunidad para los innovadores y todos diferentes fuentes como supermercados, bancos, entidades financieras
los que se preocupan por la salud, aumentan sustancialmente la y demás. El data center que se especializa en Big Data y Cloud se
posibilidad de obtener información más efectiva de los datos y encuentra en un parque tecnológico situado a las afueras de Bogotá y
menores tasas de mortalidad de los pacientes. su elaboración demandó una suma cercana a los 17 millones de
dólares. Cuenta con una capacidad de almacenamiento de 3 petabytes
d. Big Data en Almacenes, firma SENSETA y Velocidad de transmisión de 40 gigabytes.
Senseta es una empresa que opera desde junio de 2013 en el país y se h. BBVA y Big Data
especializa en capturar una gran cantidad de datos por medio de
sistemas innovadores haciendo uso de esa información con ayuda de El objetivo principal es capturar y analizar los datos que tiene el
la inteligencia artificial y la inteligencia de negocios con el fin de que banco en busca de tendencias o modelos. Dado que el banco posee
los analistas puedan crear mejores estrategias y a su vez logren hallar datos de diversas índoles como sus clientes, obligaciones y demás, lo
tendencias que les den una ventaja competitiva en la industria, esta que se busca en primera instancia es centralizar esos datos, para poder
empresa busca también situar al país como uno de los referentes en el analizarlos y extraer el conocimiento necesario o la información
manejo de grandes volúmenes de datos en América latina. relevante, lo cual es posible debido al manejo en la variedad de datos
que permite el Big Data, esta información se traduce en nuevos y
Iniciaron su expansión en Colombia ya que tienen en cuenta el avance mejores servicios de las entidades financieras para con sus clientes.
en ingeniería que tiene el país, su ubicación geográfica y su
economía, su operación consiste básicamente en la captura de Por ello, para el banco BBVA la aplicación más importante de Big
información de sistemas, la herramienta de análisis de Senseta Data o Data Mining es extraer información de los clientes a partir de
convierte estos registros en cifras reales, proporcionando estadísticas lo que hacen, esto implica que la información que se extrae para
sobre conteo de personas, mapas de flujo, rutas de circulación, puntos realizar las encuestas y estadísticas en aras de mejorar el servicio
críticos, zonas calientes, zonas frías, tiempo de permanencia y demás provienen de una fuente más fidedigna que una encuesta, pues
factores lo cual conlleva a mejores decisiones en un negocio. El implica seguir el patrón de uso de los servicios por parte de cada
alcance de Senseta no se limita únicamente a un sector de la industria, cliente para determinar qué movimientos ejecuta, el tipo de vida que
por el contrario su tecnología es aplicada en agricultura, tiene y de este modo generar un catálogo de actividades y servicios
posicionamiento, telecomunicaciones, entre otros. concordes a su actividad. En este sentido, la parte de inteligencia
comercial para poder dar ese mejor servicio es fundamental. Y,
e. TODOESTADISTICAS en Colombia además, ese conocimiento de los clientes nos permite evaluar mejor al
cliente de cara a productos que tenemos como dar créditos o prevenir
En Colombia es necesario realizar una encuesta de satisfacción de los
el fraude.
clientes para mejorar el servicio en las empresas, Todoestadísticas es
una empresa que invita a sus usuarios a iniciar con el primer paso en
campos donde otras empresas no ha incursionado para ser
benefactores del uso del Big data en el análisis de datos y ver IV. JUSTIFICACIÓN
reflejados estos beneficios en el mercado. Es una firma estadística que
cuenta con un grupo de expertos cuyo propósito es implementar y Como se mencionaba anteriormente en el apartado de Big Data y el
analizar el Big data en diversos tipos de empresas generando mayor sector Salud, la cantidad de datos que existen en algunas de estas
rentabilidad como consecuencia. entidades prestadoras es inimaginable, es vasta y de gran importancia
para proyectos de investigación ya que abarca todos los temas que
f. SAS en Colombia afectan a la sociedad, pero en la actualidad son muy pocas las
entidades que habilitan o brindan esta información para que se realice
La modalidad de esta entidad consiste en predecir el comportamiento posteriormente un arduo estudio y así responder algunas de las
de los datos basados en citas y usos anteriores de los datos en hipótesis planteadas en estos lugares, sin embargo, para la realización
cuestión, esto quiere decir que dependiendo la información y la toma de éste proyecto se contó con la suerte de suministro de datos de la
de decisiones más concurrentes. La compañía de origen clínica, la razón de selección de ésta fue porque en la ciudad de Neiva
estadounidense y que opera en varios países del mundo implementa actualmente se registran día a día personas con enfermedades en
esta tecnología con el propósito de brindar una experiencia real y
emocional del factor económico de las empresas para hacer uso de los
común, diagnósticos en común, tratándose quizá de mala conducta, resultados de hipótesis, obtener resultados para generar predicciones,
falta de purificación en las aguas por citar algunas hipótesis. por ejemplo en el caso de empresas de mercadeo; se puede observar
una tendencia de sus ventas independientemente del producto que ésta
Entonces, el propósito del proyecto fuera de poner en práctica los ofrezca y así conocer los gustos de sus clientes más concurrentes.
conocimientos adquiridos sobre Data Mining, se realiza para ayudar
de manera desinteresada aportando información valiosa al público Resumiendo todo lo anterior en un par de palabras con gran auge y
para que se conozcan y se enteren de los factores que afectan demanda actualmente en el siglo XXI, caracterizado por el avance y
actualmente a la comunidad de esta región, por último, pero no menos expansión de la digitalización de la información y comunicación a
importante es la razón de aprovechar esta información, crear modelos nivel mundial, en la que estamos presentes y obligados a adaptarnos a
de atributos, relacionar registros que tengan información en común, ella, éstas dos palabras se conocen en el mundo tecnológico como
para así mismo si es posible clasificar en grupos, comunidades o Minería de Datos (Traducido del inglés Data Mining).
sectores con el fin de hallar tendencias, crear predicciones y
responder hipótesis. Aquí es donde el desarrollo tecnológico a nivel computacional entra
en juego, mejores computadores con los que desarrollar análisis
exhaustivos de los datos en busca de información relevante, de
relaciones entre los datos, etc. Gracias a este desarrollo y a la
V. APORTE creciente necesidad de filtrar y organizar estas cantidades de datos,
nació un concepto denominado: KDD por sus siglas en inglés:
El proyecto y toda su información dada puede ser tomado como una Knowledge Discovery in Databases.
guía para todas las personas y/o profesionales que deseen aprender
más acerca de realizar análisis de Data Mining o Big Data sobre Para el análisis de este proyecto se tomó como fuente de datos una
cualquier campo de ejecución. De igual manera el propósito del database proporcionada por una clínica de la ciudad de Neiva con un
proyecto ayuda a incentivar a las persona a realizar estudios y análisis tiempo de ocho (8) meses de funcionamiento, el objetivo luego de un
de datos que aportan conocimiento para quizá alguna entidad pública estudio consiste en crear un modelo basado en diferentes análisis de
o privada se interese en la adquisición de éste para tomar con base o algoritmos los cuales son proporcionados por una herramienta
para representar como resultados. software bajo licencia GPL denominada WEKA, encargada de
modelar y exprimir toda esa información en bruto y construir un
modelo de predicción.
VI. INTRODUCCIÓN WEKA (Waikato Environment for Knowledge Analysis) es una
herramienta que permite la experimentación de análisis de datos
Actualmente las nuevas tecnologías de la información y mediante la aplicación, análisis y evaluación de las técnicas más
comunicación se han convertido en un elemento imprescindible del relevantes, principalmente las provenientes del aprendizaje
siglo XXI. El dominio de las TIC se impone como habilidad de gran automático, sobre cualquier conjunto de datos del usuario.
validez para el desempeño de todo tipo de actividades en la vida
cotidiana de cualquier individuo. El desarrollo tecnológico es un
aspecto evidente en el día a día de cualquier persona: es difícil
encontrar una profesión o un momento en nuestra vida social donde VII. OBJETIVOS
no exista la tecnología.
a. OBJETIVOS GENERALES
Siempre se ha dicho y ha sido así desde que el mundo es mundo, que
la información es poder. El ser humano siempre ha intentado conocer
e investigar a fondo todo aquello que le rodeaba para sacar el máximo Analizar a través de un minucioso estudio de corte estadístico los
partido a sus posibilidades de progreso y éxito, y para ello, disponer registros de diagnósticos suministrados por la Clínica, tendiente a
de información exclusiva y relevante, siempre ha sido de gran ayuda. determinar cuáles son las afectaciones más frecuentes de las personas
que usan el servicio en esta entidad de salud en la ciudad de Neiva,
Hoy en día, vivimos en un mundo saturado de información, contamos aplicando algunas técnicas de análisis de datos que se utilizan en el
con herramientas tecnológicas que ponen al alcance de nuestra mano área de Machine Learning & Data Mining.
vastas e ingentes cantidades de información y datos. La expansión de
internet y de los sistemas de información ha evolucionado
considerablemente nuestra capacidad de obtener información de una
manera fácil y rápida; Se estima que la cantidad de información del b. OBJETIVOS ESPECÍFICOS
mundo se dobla cada 20 meses [AI Magazine].
Asi mismo, día a día el ser humano consciente o no, suministra sus
datos y otra información valiosa a algunos sistemas informáticos
1. Analizar la frecuencia/tendencia de los registros de
diagnóstico en la clínica.
donde éstos sólo son dirigidos a reservarse en unos recursos de la
informática como los son las bases de datos, alojando durante largos 2. Determinar las IPS con mayor registro de remisiones de
periodos de tiempo (en algunos casos no) esta información siendo pacientes a la clínica.
desconocidos por la empresas que son de gran ayuda para realizar 3. Conocer las enfermedades que más padecen las personas y
estudios estadísticos y obtener resultados de tendencias, obtener se atienden en la clínica.
4. Elaborar un documento que sirva de diagnóstico para Pestaña Select Attributes: Selección de atributos.
promover políticas que eviten la accidentalidad en la ciudad
de Neiva. Pestaña Visualize: Visualización de los datos por parejas de
atributos.
5. Hallar mediante técnicas de análisis de ser posible un patrón
de los datos y un modelo de predicción. Use Training Set: En esta opción se entrenará el método con todos
VIII. MARCO TEÓRICO los datos disponibles y luego se aplicará sobre los mismos.
Los siguientes términos son algunos de los que tratamos durante el Supplied Test Set: Marcando esta opción tendremos la oportunidad
desarrollo del proyecto y el programa WEKA que utilizaba en sus de seleccionar un fichero de datos con el que se probará el
interfaces clasificador obtenido con el método de clasificación usado y los datos
iniciales.
Dataset: Un conjunto de elementos de datos, el conjunto de datos, es
un concepto muy básico de aprendizaje automático. Un conjunto de Cross‐validation: La herramienta realizará una validación cruzada
datos es más o menos equivalente a una hoja de cálculo bidimensional estratificada del número de particiones dado (Folds).
o una tabla de base de datos. En WEKA, se implementa mediante la
clase Instance. Cada instancia consta de una serie de atributos, Percentage Split: Se define un porcentaje de los datos con el que se
cualquiera de los cuales puede ser nominal (= uno de una lista construirá el clasificador y con la parte restante se realizarán las
predefinida de valores), numérico (= un número real o entero) o una pruebas.
cadena (= una larga lista arbitraria de caracteres, encerrados en "
Classes to Clusters Evaluation: En este modo Weka primero ignora
doble comillas"). WEKA también admite atributos de fecha y
el atributo de clase y genera el clustering. Luego, durante la
atributos relacionales. La representación externa de una clase de
fase de prueba, asigna clases a los clusters, basándose en el valor
Instancias es un archivo ARFF, que consiste en un encabezado que
de la mayoría del atributo de clase dentro de cada cluster. Luego
describe los tipos de atributos y los datos como una lista separada por
calcula el error de clasificación, basado en esta asignación y también
comas.
muestra la matriz de confusión corresondiente.
Clasificador: Cualquier clasificación o algoritmo de regresión en
Kappa Statistic: El Coeficiente kappa de Cohen mide la
WEKA se deriva de la clase abstracta Classifier. Un modelo de
concordancia entre dos examinadores en sus correspondientes
clasificador es un mapeo complejo arbitrario de los atributos de
clasificaciones de N elementos en C categorías mutuamente
predicción al atributo de clase. La forma y creación específica de este
excluyentes.
mapeo o modelo difiere de clasificador al clasificador. Por ejemplo,
ZeroR el modelo solo consiste en un solo valor: la clase más común TP Rate (Tasa Verdaderos Positivos): Instancias correctamente
en el caso de problemas de clasificación, o la mediana de todos los reconocidas por el sistema.
valores numéricos en caso de predecir un valor numérico (=
aprendizaje de regresión). ZeroR es un clasificador trivial, pero TP Rate = TP / TP + FN
proporciona un límite inferior en el rendimiento de un conjunto de
datos determinado que debería mejorar significativamente con FP Rate (Tasa Falsos Positivos): Instancias que son negativas pero
clasificadores más complejos. Como tal, es una prueba razonable de el sistema dice que no lo son. Por ejemplo, tenemos 439 casos que
qué tan bien se puede predecir la clase sin considerar los otros pertenecen al grupo II y que han sido clasificadas como I.
atributos.
FP Rate = FP / FP + TN
Atributos: Los atributos son las características individuales que
Precision: La precisión mide el número de términos correctamente
diferencian un objeto de otro y determinan su apariencia, estado u
reconocidos respecto al total de términos predichos, sean estos
otras cualidades. Los atributos se guardan en variables denominadas
verdaderos o falsos términos.
de instancia, y cada objeto particular puede tener valores distintos
para estas variables. TP / TP + FP
Discretize: Se usa para discretizar los atributos numéricos en los Recall: La cobertura mide la proporción de términos correctamente
nominales, basados en la información de la clase, a través del método reconocidos respecto al total de términos reales, dicho de otro modo,
MDL de Fayyad & Irani, u opcionalmente con el método MDL de mide en qué grado están todos los que son [2].
Kononeko. Algunos esquemas de aprendizaje o clasificadores solo
pueden procesar datos nominales, por ejemplo, reglas. Recall = TP / TP + VN
Pestaña Preprocess: Permite la visualización y pre procesado de los

datos (aplicación de filtros).
IX. METODOLOGÍA
Pestaña Classify: Útil para la aplicación de algoritmos de
clasificación y regresión. El proceso que se propuso para el desarrollo del proyecto como
primer medida fue hacer el análisis de los datos trimestralmente para
Pestaña Cluster: Conjunto de técnicas de agrupación. poder observar claramente el comportamiento de éstos, luego se
recopiló sólo información de la ciudad de Neiva ya que existían más
Pestaña Associate: Métodos de asociación. registros para poder ser manipulados y estudiados. Finalmente estos
datos se ingresaron en el programa WEKA para analizar las

predicciones y visualizar los resultados. A continuación se muestra
gráficamente el desarrollo del proyecto paso a paso. a. Paso 1: Análisis detallado total en general (8 meses
desde Enero hasta Agosto de 2017)
Análisis Total de Personas: 1121
Figura 1. Cantidad de personas que se atendieron en la clínica según registro: Bogotá, Caldas, Cauca, Coello Tolima, Cundinamarca,
su origen. En la ciudad “Grupo” se acoplaron los registros de las Fusagasugá, Granada, La Hormiga, Mocoa, Ortega, Purificación,
siguientes ciudades/municipios resultando de cada ciudad 1 sólo Soacha, Tolima Palocabildo y Tuluá.
Figura 2. Cantidad de personas que se atendieron en la clínica según

su régimen.
Figura 4. Cantidad de personas que se atendieron en la clínica y se

Figura 3. Cantidad de personas que se atendieron en la clínica según clasificaron según su servicio.
su rango de edad. Las anteriores demostraciones por medio de estadísticas nos han dado
una rápida introducción del tema, algo muy general de lo que se va a
tratar con los datos de 8 meses suministrados.
b. Paso 2: Análisis sólo Neiva: Total 254 personas
Figura 5. Cantidad de personas que ingresaron de Ginecología 0,00393700 0,39370 1,41732

acuerdo a su especialidad. 1 8 0787 28
F Fr F% F° Intensivista 0,01181102 1,18110 4,25196
3 4 2362 85
Arco en c 0,00393700 0,39370 1,41732
1 8 0787 28 Maxilo 0,00393700 0,39370 1,41732
facial 1 8 0787 28
Cardiología 0,01574803 1,57480 5,66929
4 1 315 13 Medicina 11,0236 39,6850
interna 28 0,11023622 2205 39
Cx general 0,09842519 9,84251 35,4330
25 7 9685 71 Nefrologia 0,01574803 1,57480 5,66929
4 1 315 13
Cx plástica 0,04330708 4,33070 15,5905
11 7 8661 51 Neurocx 17 0,06692913 6,69291 24,0944
4 3386 88 Figura 6. Porcentaje de cantidad de personas que

ingresaron de acuerdo a su especialidad.
Neurología 0,00787401 0,78740 2,83464
2 6 1575 57 Ya que en la ciudad de Neiva se encuentran varias IPC ESE Carmen
Emilia Ospina en diferentes localidades de la ciudad, en las siguientes
Ortopedia y gráficas se observan las IPS que actualmente funcionan, siendo IPC
traumatolog 0,51181102 51,1811 184,251 Palmas, IPC Granjas e IPC Canaima el conjunto total de la IPC ESE
ía 130 4 0236 97 Carmen Emilia Ospina. También se puede observar la IPS por su
ubicación o sector es más concurrida por los pacientes.
Ortopedia y
Para mejor visualización se separaron en 3 gráficas ya que la cantidad
Traumatolo de especialidades son demasiadas, 16 en total.
gía & 0,01574803 1,57480 5,66929
Pediatría 4 1 315 13
Otorrinolari 0,01181102 1,18110 4,25196

ngología 3 4 2362 85
Pediatría 0,03543307 3,54330 12,7559

9 1 7087 06
Urología 0,04330708 4,33070 15,5905

11 7 8661 51
∑ 254 1 100 360
Tabla 1. Tabla de Frecuencias de la cantidad de

personas que ingresaron de acuerdo a su especialidad.
Figura 7. Cantidad de personas remitidas de algunas IPS

según su especialidad.
Figura 8. Cantidad de personas remitidas de algunas IPS

según su especialidad.
Figura 9. Cantidad de personas remitidas de algunas IPS Figura 11. Cantidad de personas remitidas a la clínica con su
según su especialidad. respectivo diagnóstico.
De la anterior gráfica se puede observar que hay una gran

participación de personas con régimen Subsidiado y con
enfermedades que tratan de especialidad de Ortopedia, teniendo en
cuenta que las personas con este régimen tienen varios factores que
influyen antes de clasificarlas, en algunos casos son personas con
poco ingreso mensual, personas desempleadas pero económicamente
activas, personas en la tercera edad que nunca tuvieron un trabajo el
cual aspirara a pensión y entre otros factores; lamentablemente son
las más propensas a sufrir de las siguientes enfermedades:
Código Diagnóstico No.

Personas
S424 Fractura de la epífisis inferior del húmero 14

Figura 10. Cantidad de personas según su régimen remitidas de S525 Fractura de la epífisis inferior del radio 15
diferentes IPS, con especialidad de Ortopedia y Traumatología.
S529 Fractura del antebrazo, parte no 6
especificada
De ahora en adelante el análisis se enfocó en la especialidad de S822 Fractura de la diáfisis de la tibia 5
Ortopedia y Traumatología, ya que como se puede observar en las
figuras 7, 8 y 9 ésta fue la que mayores registros se obtuvieron, el
cual es un poco preocupante ya que trata de las enfermedades del
sistema músculo esquelético. Para el diagnóstico nombrado como “Otros” en la figura 11, se
unieron en el rango de 1 a 4 registros ya que no son muy frecuentes,
en total son 49 y algunos de los diagnósticos son:
Código Diagnóstico No.

Personas
A430 Nocardiosis pulmonar 1
S099 Traumatismo de la cabeza, no especificado 2
S420 Fractura de la clavícula 4
S422 Fractura de la epífisis superior del húmero 3
S520 Fractura de la epífisis superior del cúbito 1
S824 Fractura del peroné solamente 4

c. Paso 3: Análisis en el programa WEKA evaluó en el programa WEKA solo el atributo de Especialidad ya
que nos interesa mucho más, para ello le aplicamos 7 tipos de
Para el desarrollo de este proyecto se tuvieron en cuenta los algoritmos de árboles de decisión que nos ofrece el programa para
atributos suministrados por la clínica, tales como Edad, Sexo, con el resultado comparar y analizar cuál de todos generó mejores
Régimen, Entidad, IpsRemite, Diagnóstico, y servicio de cada resultados.
paciente atendido allí, para completar las siguientes tablas se
Parámetro Especialidad
Métrica DecisionStump HoeffdingTree J48 LM RandomForest RandomTree REPTree

T
Correctly 141 163 163 162 177 177 162

Classified
Instances
Porcentaje 55.51 64.17 64.17 63.77 69.68 69.68 63.77

%
Incorrectly 113 91 91 92 77 77 92
Classified
Instances
Porcentaje 44.48 35.82 35.82 36.22 30.31 30.31 36.22

%
Kappa 0.16 0.40 0.38 0.38 0.49 0.50 0.37

statistic
Mean 0.08 0.05 0.06 0.07 0.05 0.05 0.06

absolute
error
Root mean 0.20 0.19 0.18 0.18 0.16 0.16 0.18

squared
error
Relative 90.56 65.36 74.2 78.4 63.78 58.40 75.13

absolute 3 8
error %
Root 96.03 90.55 86.9 87.0 78.37 77.11 87.47

relative 4 9
squared
error %
TP Rate 0.55 0.64 0.64 0.63 0.69 0.69 0.63
FP Rate 0.39 0.27 0.30 0.28 0.25 0.24 0.30
Precision 0.33 0.63 0.64 0.65 0.70 0.69 0.60
Recall 0.55 0.64 0.64 0.63 0.69 0.69 0.63
F-Measure 0.41 0.57 0.56 0.56 0.65 0.64 0.56
MCC 0.22 0.43 0.43 0.43 0.53 0.53 0.41
ROC Area 0.62 0.75 0.74 0.78 0.86 0.87 0.73
PRC Area 0.35 0.52 0.49 0.55 0.67 0.67 0.49
El objetivo de la construcción de la tabla anterior se hizo para que Como requisito principal del análisis para los datos que hemos
se pudiera observar los resultados de los algoritmos aplicados y tratado hasta el momento es obtener un porcentaje para cada uno
podernos enfocar en las métricas que tienen mucha relevancia de las anteriores métricas mencionadas, un valor como mínimo de
como Correctly Classified Instances y Precision. 85% de confiabilidad pero lamentablemente no fue así.
# Clusters # Iterations Sum of squared Incorrectly Incorrectly clustered Seed

errors clustered instances %
instances
5 4 174.689 150.0 59.05 10
5 6 179.314 166.0 65.35 3
5 9 167.244 163.0 64.17 8
10 9 161.722 152.0 59.84 10
10 7 123.911 187.0 73.62 8
10 8 155.183 163.0 64.17 12

16 12 134.954 188.0 74.01 14
16 6 108.106 192.0 75.59 16
16 5 136.895 200.0 78.74 18
20 5 132.764 199.0 78.34 18
20 13 132.269 207.0 81.49 20
20 10 97.43 196.0 77.16 22
Algoritmo K-Means – Cluster Evaluation Ortopedia no tienen cuidado al hacer actividades demandadas y
Especialidad afectan de sus extremidades ya sea por desconocimiento o no.
En la tabla anterior se hizo uso de la opción de Classes to

Clusters Evaluation el cual puede encontrar la definición en el
apartado del marco teórico. Obteniendo como buen resultado
hacer el análisis con 16 cluster y 16 semillas (Seed), ya que tiene
coherencia con la cantidad de datos que puede tomar la métrica de
Especialidad. Referencias
Otra razón fue porque el valor del error cuadrático fue bajo en
[1] “Análisis de Viabilidad de la implementación de redes
comparación con los demás.
Big Data en Colombia”, Jorge Eduardo Reíta Reyes &
Héctor Javier Salinas Hernández, 2016,
http://repository.udistrital.edu.co/bitstream/11349/4018/1/Big-
Conclusión data-FINAL-SI-1-1%20%281%29.pdf
El análisis predictivo ha dejado de estar reservado a grandes [2] “Aplicación de Algoritmos de clasificación supervisada
corporaciones, gobiernos o universidades y se ha generalizado usando WEKA”, Ing. Corso, Cynthia Lorena,
como una herramienta más de la Busines Intelligence (Inteligencia http://www.investigacion.frc.utn.edu.ar/labsis/Publicaciones/congr
de los negocios) a disposición de todo tipo de empresas y esos_labsis/cynthia/CNIT_2009_Aplicacion_Algoritmos_Weka.p
organizaciones. El requerimiento fundamental para realizar df
análisis predictivo es la existencia de un conjunto lo
suficientemente amplio de datos como para permitir detectar en [3] “Análisis de Datos en WEKA. Pruebas de selectividad”, María
ellos patrones que permitan formular reglas capaces de anticipar García Jiménez, Aránzazu Álvarez Sierra,
previsiones. [7] http://www.it.uc3m.es/jvillena/irc/practicas/06- 07/28.pdf
La capacidad de almacenar y gestionar conjuntos de datos masivos [4] “Aplicación de técnicas de Minería de Datos a Datos obtenidos
ha crecido de manera exponencial en los últimos años al tiempo por el Centro Andaluz de Medio Ambiente (CEAMA)”, Francisco
que ha aparecido una cultura empresarial y gubernamental que José García Gonzales, 2013,
apuesta por la recolección de datos de manera sistematizada, en la http://masteres.ugr.es/moea/pages/tfm-
confianza de que en algún momento podrá extraerse de los 1213/tfm_garciagonzalezfrancisco_1/!
mismos información relevante.
[5] “Minería de Datos para el análisis de datos Meteorológicos”,
Se deduce que los mayores registros que existen sobre Ortopedia y Néstor Darío Duque M & Mauricio Orozco A & Luisa Hincapié,
Traumatología en la ciudad de Neiva de acuerdo a los datos http://www.docentes.unal.edu.co/morozcoa/docs/Duque2011.pdf
suministrados afectan directamente a personas con régimen
subsidiado sabiendo que a estas las afectan muchos factores y la [6] “Análisis inteligente de datos aplicado al proceso de nivelación
gran mayoría pertenecen a la denominada población vulnerable. en la Universidad Técnica Estatal de Quevedo”, H. Escobar. & W.
Burbano. & A. Puris, http://www.uteq.edu.ec/doc/page/35/Grupos
Puede considerarse que estas personas afectadas por alguna %20de%20Investigaci%C3%B3n/tics/150-965-1-PB.pdf
fractura u otro diagnóstico perteneciente a la especialidad de
[7] “Análisis predictivo: técnicas y modelos utilizados y
aplicaciones del mismo - herramientas Open Source que permiten
su uso”, Carlos Espino Timón & Xavier Martínez Fontes, 2017,

http://openaccess.uoc.edu/webapps/o2/bitstream/10609/59565/6/c
aresptimTFG0117mem%C3%B2ria.pdf
[8] “Algoritmos de Clustering y aprendizaje automático aplicados

a Twitter”, Eric-Joel Blanco-Hermida Sanz, Enero-2016,
https://upcommons.upc.edu/bitstream/handle/2117/82434/113257.
pdf?sequence=1&isAllowed=y
[9] “Técnicas de Agrupamiento para el análisis de datos

cuantitativos y cualitativos”, Ignacio Javier Benítez Sánchez,
Valencia – Septiembre 2005,
https://www.researchgate.net/profile/Ignacio_Benitez/publication/
239526131_Tecnicas_de_Agrupamiento_para_el_Analisis_de_Da
tos_Cuantitativos_y_Cualitativos/links/00b7d51c15cca2cb1f0000
00/Tecnicas-de-Agrupamiento-para-el-Analisis-de-Datos-
Cuantitativos-y-Cualitativos.pdf

Presentado Por Evelyn Yaneth Cardozo Caviedes y Jhoan Sebastián Polania Diaz

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Presentado Por Evelyn Yaneth Cardozo Caviedes y Jhoan Sebastián Polania Diaz

Cargado por

Copyright:

Formatos disponibles

APLICACIÓN DE DATA MINING A DATOS SUMINISTRADOS POR UNA CLÍNICA DE LA

CIUDAD DE NEIVA - HUILA (COLOMBIA) DE UN PERIODO DE 8 MESES DESDE ENERO A

I. ABSTRACT herramientas y técnicas que actualmente se utilizan para hallar

datos. La implementación de esta tecnología permitiría la toma de

Pestaña Preprocess: Permite la visualización y pre procesado de los

datos se ingresaron en el programa WEKA para analizar las

desde Enero hasta Agosto de 2017)

Análisis Total de Personas: 1121

Figura 2. Cantidad de personas que se atendieron en la clínica según

Figura 4. Cantidad de personas que se atendieron en la clínica y se

b. Paso 2: Análisis sólo Neiva: Total 254 personas

Figura 5. Cantidad de personas que ingresaron de Ginecología 0,00393700 0,39370 1,41732

4 3386 88 Figura 6. Porcentaje de cantidad de personas que

Otorrinolari 0,01181102 1,18110 4,25196

Pediatría 0,03543307 3,54330 12,7559

Urología 0,04330708 4,33070 15,5905

∑ 254 1 100 360

Tabla 1. Tabla de Frecuencias de la cantidad de

Figura 7. Cantidad de personas remitidas de algunas IPS

Figura 8. Cantidad de personas remitidas de algunas IPS

De la anterior gráfica se puede observar que hay una gran

Código Diagnóstico No.

S424 Fractura de la epífisis inferior del húmero 14

Código Diagnóstico No.

A430 Nocardiosis pulmonar 1

S099 Traumatismo de la cabeza, no especificado 2

S420 Fractura de la clavícula 4

S422 Fractura de la epífisis superior del húmero 3

S520 Fractura de la epífisis superior del cúbito 1

S824 Fractura del peroné solamente 4

Métrica DecisionStump HoeffdingTree J48 LM RandomForest RandomTree REPTree

Correctly 141 163 163 162 177 177 162

Porcentaje 55.51 64.17 64.17 63.77 69.68 69.68 63.77

Porcentaje 44.48 35.82 35.82 36.22 30.31 30.31 36.22

Kappa 0.16 0.40 0.38 0.38 0.49 0.50 0.37

Mean 0.08 0.05 0.06 0.07 0.05 0.05 0.06

Root mean 0.20 0.19 0.18 0.18 0.16 0.16 0.18

Relative 90.56 65.36 74.2 78.4 63.78 58.40 75.13

Root 96.03 90.55 86.9 87.0 78.37 77.11 87.47

TP Rate 0.55 0.64 0.64 0.63 0.69 0.69 0.63

FP Rate 0.39 0.27 0.30 0.28 0.25 0.24 0.30

Precision 0.33 0.63 0.64 0.65 0.70 0.69 0.60

Recall 0.55 0.64 0.64 0.63 0.69 0.69 0.63

F-Measure 0.41 0.57 0.56 0.56 0.65 0.64 0.56

MCC 0.22 0.43 0.43 0.43 0.53 0.53 0.41

ROC Area 0.62 0.75 0.74 0.78 0.86 0.87 0.73

PRC Area 0.35 0.52 0.49 0.55 0.67 0.67 0.49

# Clusters # Iterations Sum of squared Incorrectly Incorrectly clustered Seed

5 6 179.314 166.0 65.35 3

5 9 167.244 163.0 64.17 8

10 9 161.722 152.0 59.84 10

10 7 123.911 187.0 73.62 8

10 8 155.183 163.0 64.17 12

16 12 134.954 188.0 74.01 14

16 6 108.106 192.0 75.59 16

16 5 136.895 200.0 78.74 18

20 5 132.764 199.0 78.34 18

20 13 132.269 207.0 81.49 20

20 10 97.43 196.0 77.16 22

En la tabla anterior se hizo uso de la opción de Classes to

su uso”, Carlos Espino Timón & Xavier Martínez Fontes, 2017,

[8] “Algoritmos de Clustering y aprendizaje automático aplicados