Está en la página 1de 5

ACTIVIDAD 2-

Herramienta BigML
Clustering, detección de anomalías y reglas de asociación

El corbe
  
INDICE

Introducción................................................................................................................................2
Clustering.................................................................................................................................2
Asociación de asociación.........................................................................................................3
Detección de anomalías..........................................................................................................3

pág. 1
Introducción

A partir de una base de datos del rubro de la salud, se utilizó la herramienta BigML donde se
hicieron distintas pruebas hasta llegar a una base de datos final limpia de errores.
Posteriormente se lograron conclusiones aplicando las distintas técnicas de Machine Learning.

Se parte de una base de datos que contiene información de las ventas a clientes claves de la
institución acompañado a sus listas de precios y sus ventas, el periodo que abarca la misma es
de dos años.

En el siguiente cuadro se ilustra los datos utilizados y une breve descripción:

Clustering

En la técnica de clustering en la base de datos, como se puede ver en la ilustración más abajo,
se obtuvo cuatro cluster donde el sistema encontró patrones de similitudes entre ellas. Nos
centramos en el Grupo 3 para realizar el árbol de decisiones y analizarlo, este grupo tiene
29.236 instancias.

El árbol de decisiones se basa en la lista de precio asignada y el tipo de cliente que


corresponde. Como esta en el ejemplificado en la ilustración, si la lista de cliente es igual a
MITA si es verdadero es MITA, si es falso se cuestiona si es Salud Publica y de no serlo si es
COLOT y así sucesivamente para hallar el mercado de cliente que se está facturando. El modelo
esta basado en una confianza de 96,15%, un nivel alto y el error es casi mínimo.

El clustering es una técnica muy útil a la hora de buscar agrupaciones en el caso de la base de
datos utilizada sirvió para determinar de que mercado trataba, lo que permite de forma rápida
tener una visión, sin tener que hacerlo con Excel u otra herramienta no tan practica.

pág. 2
Asociación de asociación

En el caso de la técnica de asociación se analizaron las distintas reglas y se tomó la de mejor


calidad para describirla, como se ilustra en el ejemplo el 71,183% de las instancias en la
datasets contienen antecedentes, es decir, que el 71, 183% se le ha facturado a COLOT. Y nos
explica que el 68,5% aproximado se ha vendido a COLOT y a la lista de precio de COLOT, esta
información parece evidente pero este cliente puede utilizar distintas listas de precios
dependiendo de los precios de ventas convenidos, muchas veces utiliza otras paramétricas de
precios, si bien cómo se puede observar en el grafico esta es la más utilizada. Esto significa que
hay una confianza del 96% de que si se le vende a COLOT la lista de precio utilizada es la de
COLOT.

En cuanto a la siguiente visualización se puede observar que hay uniones en ciertas listas de
precios y cliente, pero luego son independiente de acuerdo con el mercado.

En el que se ve más interacción es el mercado COLOT que a su vez está compuesto por muchas
empresas a la que se le factura, es decir, son diversas mutualistas del interior que tienen
convenios y se agrupan en el cliente COLOT siendo los clientes más grandes de la institución.

La otra relación que se ve es MITA que es otro cliente y PICOL que Salud Publica, es el estado.

MITA
PICOL

COLOT

Detección de anomalías

El índice de anomalía establecido es de 81,66%, analizando esta anomalía, se puedo observar


que se debe a un error en la facturación a un cliente que ya no existe como cliente, ya que no
tiene efecto jurídico porque se fusiono con la empresa en cuestión y hoy en día al ser negocio
distinto igual se le cobra, pero a través de un documento interno.

Se puede ver en unos de los gráficos que el valor esta en negativo y positivo, en su momento
se facturo, pero cuando se detecto se realizo la nota de crédito correspondiente para
solucionar el error anteriormente cometido.

pág. 3
Las bases de datos no tienen más anomalías de la mencionada, si bien en como mencionaba en
este caso no aplica esta técnica es muy útil para la detección de errores en la facturación como
fraude, lo cual, es muy interesante a la hora de analizar datos.

pág. 4

También podría gustarte