Está en la página 1de 7

Asignatura Datos del alumno Fecha

Edwin Isidro Zuñiga Escobar Javier Chuquillanqui Mendoza 18 de


Aprendizaje
abril del
Automático Jesús Ricardo Flores Montenegro Oscar Miranda Miranda 2022

Actividad grupal: Detección de anomalías y


técnicas de agrupamiento
Objetivo

El objetivo de esta actividad consiste en poner a prueba los conocimientos


adquiridos sobre las técnicas de agrupamiento y los algoritmos de detección de
anomalías (outliers). Se busca comprender de manera practica los pasos a seguir
para realizar una detección automática de valores atípicos y valorar los resultados
obtenidos de forma adecuada y critica.

Descripción de la actividad

Para llevar a cabo esta actividad se nos indico el uso de un conjunto de datos en
específico. Este conjunto contiene información relacionada a transacciones
realizadas con tarjeta de crédito de distintos negocios; lo cual nos permite realizar
un algoritmo de aprendizaje que identifique cuando una transacción es fraude.

La detección de transacciones que son fraude se realizará implementando un


algoritmo de detección de anomalías, que en este caso se trata de un Isolation
Forest. Este método se basa en arboles de decisión para identificar datos anómalos;
la forma en que se identifican depende de que tan profundo en el árbol pueda
llegar el dato, si llega muy profundo es poco probable que se trate de un dato
anómalo. De igual manera se emplea una técnica de agrupamiento que nos permite
identificar cuan similares son los datos unos de otros. Se utiliza K-Means para
agrupar los datos en dos categorías: transacción normal y transacción fraude.

Los datos que se encuentran en el conjunto son los siguientes:

 Merchant_id: Identificación del negocio


nacional de La Rioja (UNIR)
 Transaction date: Día de la transacción

Actividades 1
Asignatura Datos del alumno Fecha
Edwin Isidro Zuñiga Escobar Javier Chuquillanqui Mendoza 18 de
Aprendizaje
abril del
Automático Jesús Ricardo Flores Montenegro Oscar Miranda Miranda 2022

 Average Amount/transaction/day: Importe promedio de transacciones


diarias
 Transaction_amount: Impote de la transacción
 Is declined: Indica si la transacción fue declinada
 Total Number of declines/day: Número total de declinaciones por día
 isForeignTransaction: Indica si la transacción es foranea
 isHighRiskCountry: Indica si el país es de alto riesgo
 Daily_chargeback_avg_amt: Monto promedio diario de cargos devueltos
 6_month_avg_chbk_amt: Monto promedio de cargos devueltos en los
últimos 6 meses
 6-month_chbk_freq: Frecuencia de devoluciones en los últimos 6 meses
 isFradulent: Etiqueta que indica si fue fraude

Marco Teórico

Aprendizaje no supervisado

Isolation Forest

K-Means

DBSCAN--x

Desarrollo

Para dar comienzo al desarrollo de esta actividad, lo primero que hacemos es la


importación de bibliotecas a nuestro notebook. Esto nos permite disponer de
herramientas útiles que nos ayudaran a implementar los algoritmos de Isolation
Forest y K-Means, así como el manejo de datos y despliegue de la información
obtenida en gráficos de diferentes tipos. Dentro de las bibliotecas que mas destacan
por
nacional de La Rioja (UNIR) su uso en la actividad se encuentran:

Actividades 2
Asignatura Datos del alumno Fecha
Edwin Isidro Zuñiga Escobar Javier Chuquillanqui Mendoza 18 de
Aprendizaje
abril del
Automático Jesús Ricardo Flores Montenegro Oscar Miranda Miranda 2022

 Pandas y numpy: permiten leer el archivo que contiene el conjunto de datos


y ejecutar diversos cálculos que ayudan a conocerlo mejor.
 Sklearn: contiene implementaciones de los algoritmos de interés para esta
actividad, así como diversas métricas para evaluar los resultados.
 Seaborn y Matplotlib: las utilizamos para graficar los resultados obtenidos.

Una vez que cargamos las bibliotecas, procedemos a leer el archivo


“creditcardcsvpresent.csv” con ayuda de Pandas. Esto crea un dataframe con la
información contenida en el.

Análisis Exploratorio de Datos

Oscar
A partir de 1.5
Variables Numéricas

Variables Categóricas

Búsqueda y tratamiento de valores nulos

Detección de anomalías

La primera técnica que se aplicara a nuestro dataset ya pre-procesado, antes de


aplicar este algoritmo, se creó una copia del dataframe original para tener un
dataframe con nombre df2, para trabajar exclusivamente con detección de
anomalías.

nacional de La Rioja (UNIR)

Actividades 3
Asignatura Datos del alumno Fecha
Edwin Isidro Zuñiga Escobar Javier Chuquillanqui Mendoza 18 de
Aprendizaje
abril del
Automático Jesús Ricardo Flores Montenegro Oscar Miranda Miranda 2022

El algoritmo de detección que se escogió para esta presente actividad es el de


Isolation Forest, lo primero que se realizará será dividir el dataframe en un conjunto
de entrenamiento y prueba.

El próximo paso realizado fue el de entrenar el nuestro modelo basado en los


siguientes hiperparámetros, usando el análisis de data y ajustándolos de acuerdo al
resultado obtenido con diferentes estados.

Habiendo realizado el entrenamiento de nuestro modelo, se procederá a


estructurar las predicciones, y como tenemos la columna de salida original llamada
“isFradulent” de nuestro dataset, se utilizará esta columna para comparar los
resultados de la predicción, y analizar qué tan buena fue la predicción.

Se puede ver que los valores predichos anómalos y los valores que en el dataset son
fraudulentos, son similares. Lo que nos indica que nuestra predicción se acercó bien
a la información real.

nacional de La Rioja (UNIR)

Actividades 4
Asignatura Datos del alumno Fecha
Edwin Isidro Zuñiga Escobar Javier Chuquillanqui Mendoza 18 de
Aprendizaje
abril del
Automático Jesús Ricardo Flores Montenegro Oscar Miranda Miranda 2022

Como el modelo da una predicción casi cercana a los valores reales, se procederá a
realizar las pruebas con el modelo actual, y validar que el resultado sea similar al
entrenamiento.

Para un mejor análisis, se homologará el resultado del modelo que genera -1 para
datos anómalos (fraudulentos) y 1 para datos normales (no fraudulentos), se
transformará a 1 para fraudulentos y 0 para los no fraudulentos.

Se genera una vista grafica de uno de los estimadores del isolation forest.

La comparación grafica de los valores reales contra los predichos, usando las
columnas “Daily_chargeback_avg_amt” y “Total Number of declines/day”, y se
observa que la detección de la anomalía es similar al valor real.

nacional de La Rioja (UNIR)

Actividades 5
Asignatura Datos del alumno Fecha
Edwin Isidro Zuñiga Escobar Javier Chuquillanqui Mendoza 18 de
Aprendizaje
abril del
Automático Jesús Ricardo Flores Montenegro Oscar Miranda Miranda 2022

Para un análisis más preciso del resultado final, y como tenemos el resultado real,
se utilizará la matriz de confusión y la métrica de precisión.

El resultado de la precisión del entrenamiento es menor que el de test lo que nos


indica que no hubo overfitting. Y se obtiene una precisión de 0.86

Teniendo estos resultados se puede analizar las ventajas y desventajas, de este


modelo.

Ventajas Desventajas
No se necesita demasiado procesamiento de la La visualización grafica de los árboles se
información. complica con muchos valores.
Da buenos resultados, teniendo los parámetros
correctos
Es rápido en su procesamiento, dependiendo de
nacional de La Rioja (UNIR)
los recursos disponibles

Actividades 6
Asignatura Datos del alumno Fecha
Edwin Isidro Zuñiga Escobar Javier Chuquillanqui Mendoza 18 de
Aprendizaje
abril del
Automático Jesús Ricardo Flores Montenegro Oscar Miranda Miranda 2022

Agrupamiento

edwin
Conclusiones

Ricardo f
Referencias

Puntuación máxima Peso


Descripción
(puntos) %

Criterio 1 Realiza el análisis descriptivo de los datos


2 20 %
de manera adecuada

Criterio 2 Aplica técnicas de clúster sobre los datos 3 30 %

Criterio 3 Aplica técnicas de detección de anomalías 3 30 %

Criterio 4 Los comentarios sobre los resultados son


2 20 %
pertinentes y adecuados

10 100 %

nacional de La Rioja (UNIR)

Actividades 7

También podría gustarte