Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Herramienta BigML
Clustering, detección de anomalías y reglas de asociación
El corbe
INDICE
Introducción................................................................................................................................2
Clustering.................................................................................................................................2
Asociación de asociación.........................................................................................................3
Detección de anomalías..........................................................................................................3
pág. 1
Introducción
A partir de una base de datos del rubro de la salud, se utilizó la herramienta BigML donde se
hicieron distintas pruebas hasta llegar a una base de datos final limpia de errores.
Posteriormente se lograron conclusiones aplicando las distintas técnicas de Machine Learning.
Se parte de una base de datos que contiene información de las ventas a clientes claves de la
institución acompañado a sus listas de precios y sus ventas, el periodo que abarca la misma es
de dos años.
Clustering
En la técnica de clustering en la base de datos, como se puede ver en la ilustración más abajo,
se obtuvo cuatro cluster donde el sistema encontró patrones de similitudes entre ellas. Nos
centramos en el Grupo 3 para realizar el árbol de decisiones y analizarlo, este grupo tiene
29.236 instancias.
El clustering es una técnica muy útil a la hora de buscar agrupaciones en el caso de la base de
datos utilizada sirvió para determinar de que mercado trataba, lo que permite de forma rápida
tener una visión, sin tener que hacerlo con Excel u otra herramienta no tan practica.
pág. 2
Asociación de asociación
En cuanto a la siguiente visualización se puede observar que hay uniones en ciertas listas de
precios y cliente, pero luego son independiente de acuerdo con el mercado.
En el que se ve más interacción es el mercado COLOT que a su vez está compuesto por muchas
empresas a la que se le factura, es decir, son diversas mutualistas del interior que tienen
convenios y se agrupan en el cliente COLOT siendo los clientes más grandes de la institución.
La otra relación que se ve es MITA que es otro cliente y PICOL que Salud Publica, es el estado.
MITA
PICOL
COLOT
Detección de anomalías
Se puede ver en unos de los gráficos que el valor esta en negativo y positivo, en su momento
se facturo, pero cuando se detecto se realizo la nota de crédito correspondiente para
solucionar el error anteriormente cometido.
pág. 3
Las bases de datos no tienen más anomalías de la mencionada, si bien en como mencionaba en
este caso no aplica esta técnica es muy útil para la detección de errores en la facturación como
fraude, lo cual, es muy interesante a la hora de analizar datos.
pág. 4