Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Presentado Por Evelyn Yaneth Cardozo Caviedes y Jhoan Sebastián Polania Diaz
Presentado Por Evelyn Yaneth Cardozo Caviedes y Jhoan Sebastián Polania Diaz
Presentado por Evelyn Yaneth Cardozo Caviedes y Jhoan Sebastián Polania Diaz
común, diagnósticos en común, tratándose quizá de mala conducta, resultados de hipótesis, obtener resultados para generar predicciones,
falta de purificación en las aguas por citar algunas hipótesis. por ejemplo en el caso de empresas de mercadeo; se puede observar
una tendencia de sus ventas independientemente del producto que ésta
Entonces, el propósito del proyecto fuera de poner en práctica los ofrezca y así conocer los gustos de sus clientes más concurrentes.
conocimientos adquiridos sobre Data Mining, se realiza para ayudar
de manera desinteresada aportando información valiosa al público Resumiendo todo lo anterior en un par de palabras con gran auge y
para que se conozcan y se enteren de los factores que afectan demanda actualmente en el siglo XXI, caracterizado por el avance y
actualmente a la comunidad de esta región, por último, pero no menos expansión de la digitalización de la información y comunicación a
importante es la razón de aprovechar esta información, crear modelos nivel mundial, en la que estamos presentes y obligados a adaptarnos a
de atributos, relacionar registros que tengan información en común, ella, éstas dos palabras se conocen en el mundo tecnológico como
para así mismo si es posible clasificar en grupos, comunidades o Minería de Datos (Traducido del inglés Data Mining).
sectores con el fin de hallar tendencias, crear predicciones y
responder hipótesis. Aquí es donde el desarrollo tecnológico a nivel computacional entra
en juego, mejores computadores con los que desarrollar análisis
exhaustivos de los datos en busca de información relevante, de
relaciones entre los datos, etc. Gracias a este desarrollo y a la
V. APORTE creciente necesidad de filtrar y organizar estas cantidades de datos,
nació un concepto denominado: KDD por sus siglas en inglés:
El proyecto y toda su información dada puede ser tomado como una Knowledge Discovery in Databases.
guía para todas las personas y/o profesionales que deseen aprender
más acerca de realizar análisis de Data Mining o Big Data sobre Para el análisis de este proyecto se tomó como fuente de datos una
cualquier campo de ejecución. De igual manera el propósito del database proporcionada por una clínica de la ciudad de Neiva con un
proyecto ayuda a incentivar a las persona a realizar estudios y análisis tiempo de ocho (8) meses de funcionamiento, el objetivo luego de un
de datos que aportan conocimiento para quizá alguna entidad pública estudio consiste en crear un modelo basado en diferentes análisis de
o privada se interese en la adquisición de éste para tomar con base o algoritmos los cuales son proporcionados por una herramienta
para representar como resultados. software bajo licencia GPL denominada WEKA, encargada de
modelar y exprimir toda esa información en bruto y construir un
modelo de predicción.
VI. INTRODUCCIÓN WEKA (Waikato Environment for Knowledge Analysis) es una
herramienta que permite la experimentación de análisis de datos
Actualmente las nuevas tecnologías de la información y mediante la aplicación, análisis y evaluación de las técnicas más
comunicación se han convertido en un elemento imprescindible del relevantes, principalmente las provenientes del aprendizaje
siglo XXI. El dominio de las TIC se impone como habilidad de gran automático, sobre cualquier conjunto de datos del usuario.
validez para el desempeño de todo tipo de actividades en la vida
cotidiana de cualquier individuo. El desarrollo tecnológico es un
aspecto evidente en el día a día de cualquier persona: es difícil
encontrar una profesión o un momento en nuestra vida social donde VII. OBJETIVOS
no exista la tecnología.
a. OBJETIVOS GENERALES
Siempre se ha dicho y ha sido así desde que el mundo es mundo, que
la información es poder. El ser humano siempre ha intentado conocer
e investigar a fondo todo aquello que le rodeaba para sacar el máximo Analizar a través de un minucioso estudio de corte estadístico los
partido a sus posibilidades de progreso y éxito, y para ello, disponer registros de diagnósticos suministrados por la Clínica, tendiente a
de información exclusiva y relevante, siempre ha sido de gran ayuda. determinar cuáles son las afectaciones más frecuentes de las personas
que usan el servicio en esta entidad de salud en la ciudad de Neiva,
Hoy en día, vivimos en un mundo saturado de información, contamos aplicando algunas técnicas de análisis de datos que se utilizan en el
con herramientas tecnológicas que ponen al alcance de nuestra mano área de Machine Learning & Data Mining.
vastas e ingentes cantidades de información y datos. La expansión de
internet y de los sistemas de información ha evolucionado
considerablemente nuestra capacidad de obtener información de una
manera fácil y rápida; Se estima que la cantidad de información del b. OBJETIVOS ESPECÍFICOS
mundo se dobla cada 20 meses [AI Magazine].
Asi mismo, día a día el ser humano consciente o no, suministra sus
datos y otra información valiosa a algunos sistemas informáticos
1. Analizar la frecuencia/tendencia de los registros de
diagnóstico en la clínica.
donde éstos sólo son dirigidos a reservarse en unos recursos de la
informática como los son las bases de datos, alojando durante largos 2. Determinar las IPS con mayor registro de remisiones de
periodos de tiempo (en algunos casos no) esta información siendo pacientes a la clínica.
desconocidos por la empresas que son de gran ayuda para realizar 3. Conocer las enfermedades que más padecen las personas y
estudios estadísticos y obtener resultados de tendencias, obtener se atienden en la clínica.
CORPORACIÓN UNIVERSITARIA DEL HUILA “CORHUILA”
FACULTAD DE INGENIERÍA
4. Elaborar un documento que sirva de diagnóstico para Pestaña Select Attributes: Selección de atributos.
promover políticas que eviten la accidentalidad en la ciudad
de Neiva. Pestaña Visualize: Visualización de los datos por parejas de
atributos.
5. Hallar mediante técnicas de análisis de ser posible un patrón
de los datos y un modelo de predicción. Use Training Set: En esta opción se entrenará el método con todos
VIII. MARCO TEÓRICO los datos disponibles y luego se aplicará sobre los mismos.
Los siguientes términos son algunos de los que tratamos durante el Supplied Test Set: Marcando esta opción tendremos la oportunidad
desarrollo del proyecto y el programa WEKA que utilizaba en sus de seleccionar un fichero de datos con el que se probará el
interfaces clasificador obtenido con el método de clasificación usado y los datos
iniciales.
Dataset: Un conjunto de elementos de datos, el conjunto de datos, es
un concepto muy básico de aprendizaje automático. Un conjunto de Cross‐validation: La herramienta realizará una validación cruzada
datos es más o menos equivalente a una hoja de cálculo bidimensional estratificada del número de particiones dado (Folds).
o una tabla de base de datos. En WEKA, se implementa mediante la
clase Instance. Cada instancia consta de una serie de atributos, Percentage Split: Se define un porcentaje de los datos con el que se
cualquiera de los cuales puede ser nominal (= uno de una lista construirá el clasificador y con la parte restante se realizarán las
predefinida de valores), numérico (= un número real o entero) o una pruebas.
cadena (= una larga lista arbitraria de caracteres, encerrados en "
Classes to Clusters Evaluation: En este modo Weka primero ignora
doble comillas"). WEKA también admite atributos de fecha y
el atributo de clase y genera el clustering. Luego, durante la
atributos relacionales. La representación externa de una clase de
fase de prueba, asigna clases a los clusters, basándose en el valor
Instancias es un archivo ARFF, que consiste en un encabezado que
de la mayoría del atributo de clase dentro de cada cluster. Luego
describe los tipos de atributos y los datos como una lista separada por
calcula el error de clasificación, basado en esta asignación y también
comas.
muestra la matriz de confusión corresondiente.
Clasificador: Cualquier clasificación o algoritmo de regresión en
Kappa Statistic: El Coeficiente kappa de Cohen mide la
WEKA se deriva de la clase abstracta Classifier. Un modelo de
concordancia entre dos examinadores en sus correspondientes
clasificador es un mapeo complejo arbitrario de los atributos de
clasificaciones de N elementos en C categorías mutuamente
predicción al atributo de clase. La forma y creación específica de este
excluyentes.
mapeo o modelo difiere de clasificador al clasificador. Por ejemplo,
ZeroR el modelo solo consiste en un solo valor: la clase más común TP Rate (Tasa Verdaderos Positivos): Instancias correctamente
en el caso de problemas de clasificación, o la mediana de todos los reconocidas por el sistema.
valores numéricos en caso de predecir un valor numérico (=
aprendizaje de regresión). ZeroR es un clasificador trivial, pero TP Rate = TP / TP + FN
proporciona un límite inferior en el rendimiento de un conjunto de
datos determinado que debería mejorar significativamente con FP Rate (Tasa Falsos Positivos): Instancias que son negativas pero
clasificadores más complejos. Como tal, es una prueba razonable de el sistema dice que no lo son. Por ejemplo, tenemos 439 casos que
qué tan bien se puede predecir la clase sin considerar los otros pertenecen al grupo II y que han sido clasificadas como I.
atributos.
FP Rate = FP / FP + TN
Atributos: Los atributos son las características individuales que
Precision: La precisión mide el número de términos correctamente
diferencian un objeto de otro y determinan su apariencia, estado u
reconocidos respecto al total de términos predichos, sean estos
otras cualidades. Los atributos se guardan en variables denominadas
verdaderos o falsos términos.
de instancia, y cada objeto particular puede tener valores distintos
para estas variables. TP / TP + FP
Discretize: Se usa para discretizar los atributos numéricos en los Recall: La cobertura mide la proporción de términos correctamente
nominales, basados en la información de la clase, a través del método reconocidos respecto al total de términos reales, dicho de otro modo,
MDL de Fayyad & Irani, u opcionalmente con el método MDL de mide en qué grado están todos los que son [2].
Kononeko. Algunos esquemas de aprendizaje o clasificadores solo
pueden procesar datos nominales, por ejemplo, reglas. Recall = TP / TP + VN
Figura 1. Cantidad de personas que se atendieron en la clínica según registro: Bogotá, Caldas, Cauca, Coello Tolima, Cundinamarca,
su origen. En la ciudad “Grupo” se acoplaron los registros de las Fusagasugá, Granada, La Hormiga, Mocoa, Ortega, Purificación,
siguientes ciudades/municipios resultando de cada ciudad 1 sólo Soacha, Tolima Palocabildo y Tuluá.
Figura 9. Cantidad de personas remitidas de algunas IPS Figura 11. Cantidad de personas remitidas a la clínica con su
según su especialidad. respectivo diagnóstico.
c. Paso 3: Análisis en el programa WEKA evaluó en el programa WEKA solo el atributo de Especialidad ya
que nos interesa mucho más, para ello le aplicamos 7 tipos de
Para el desarrollo de este proyecto se tuvieron en cuenta los algoritmos de árboles de decisión que nos ofrece el programa para
atributos suministrados por la clínica, tales como Edad, Sexo, con el resultado comparar y analizar cuál de todos generó mejores
Régimen, Entidad, IpsRemite, Diagnóstico, y servicio de cada resultados.
paciente atendido allí, para completar las siguientes tablas se
Parámetro Especialidad
Incorrectly 113 91 91 92 77 77 92
Classified
Instances
El objetivo de la construcción de la tabla anterior se hizo para que Como requisito principal del análisis para los datos que hemos
se pudiera observar los resultados de los algoritmos aplicados y tratado hasta el momento es obtener un porcentaje para cada uno
podernos enfocar en las métricas que tienen mucha relevancia de las anteriores métricas mencionadas, un valor como mínimo de
como Correctly Classified Instances y Precision. 85% de confiabilidad pero lamentablemente no fue así.
Algoritmo K-Means – Cluster Evaluation Ortopedia no tienen cuidado al hacer actividades demandadas y
Especialidad afectan de sus extremidades ya sea por desconocimiento o no.