Act2 Aa E25

Asignatura Datos del alumno Fecha
Edwin Isidro Zuñiga Escobar Javier Chuquillanqui Mendoza 18 de

Aprendizaje
abril del
Automático Jesús Ricardo Flores Montenegro Oscar Miranda Miranda 2022
Actividad grupal: Detección de anomalías y

técnicas de agrupamiento
Objetivo
El objetivo de esta actividad consiste en poner a prueba los conocimientos

adquiridos sobre las técnicas de agrupamiento y los algoritmos de detección de
anomalías (outliers). Se busca comprender de manera practica los pasos a seguir
para realizar una detección automática de valores atípicos y valorar los resultados
obtenidos de forma adecuada y critica.
Descripción de la actividad
Para llevar a cabo esta actividad se nos indico el uso de un conjunto de datos en
específico. Este conjunto contiene información relacionada a transacciones
realizadas con tarjeta de crédito de distintos negocios; lo cual nos permite realizar
un algoritmo de aprendizaje que identifique cuando una transacción es fraude.
La detección de transacciones que son fraude se realizará implementando un

algoritmo de detección de anomalías, que en este caso se trata de un Isolation
Forest. Este método se basa en arboles de decisión para identificar datos anómalos;
la forma en que se identifican depende de que tan profundo en el árbol pueda
llegar el dato, si llega muy profundo es poco probable que se trate de un dato
anómalo. De igual manera se emplea una técnica de agrupamiento que nos permite
identificar cuan similares son los datos unos de otros. Se utiliza K-Means para
agrupar los datos en dos categorías: transacción normal y transacción fraude.
Los datos que se encuentran en el conjunto son los siguientes:
 Merchant_id: Identificación del negocio

nacional de La Rioja (UNIR)
 Transaction date: Día de la transacción
Actividades 1
Aprendizaje
abril del
 Average Amount/transaction/day: Importe promedio de transacciones

diarias
 Transaction_amount: Impote de la transacción
 Is declined: Indica si la transacción fue declinada
 Total Number of declines/day: Número total de declinaciones por día
 isForeignTransaction: Indica si la transacción es foranea
 isHighRiskCountry: Indica si el país es de alto riesgo
 Daily_chargeback_avg_amt: Monto promedio diario de cargos devueltos
 6_month_avg_chbk_amt: Monto promedio de cargos devueltos en los
últimos 6 meses
 6-month_chbk_freq: Frecuencia de devoluciones en los últimos 6 meses
 isFradulent: Etiqueta que indica si fue fraude
Marco Teórico
Aprendizaje no supervisado
Isolation Forest
K-Means
DBSCAN--x
Desarrollo
Para dar comienzo al desarrollo de esta actividad, lo primero que hacemos es la

importación de bibliotecas a nuestro notebook. Esto nos permite disponer de
herramientas útiles que nos ayudaran a implementar los algoritmos de Isolation
Forest y K-Means, así como el manejo de datos y despliegue de la información
obtenida en gráficos de diferentes tipos. Dentro de las bibliotecas que mas destacan
por
nacional de La Rioja (UNIR) su uso en la actividad se encuentran:
Actividades 2
Aprendizaje
abril del
 Pandas y numpy: permiten leer el archivo que contiene el conjunto de datos

y ejecutar diversos cálculos que ayudan a conocerlo mejor.
 Sklearn: contiene implementaciones de los algoritmos de interés para esta
actividad, así como diversas métricas para evaluar los resultados.
 Seaborn y Matplotlib: las utilizamos para graficar los resultados obtenidos.
Una vez que cargamos las bibliotecas, procedemos a leer el archivo

“creditcardcsvpresent.csv” con ayuda de Pandas. Esto crea un dataframe con la
información contenida en el.
Análisis Exploratorio de Datos
Oscar
A partir de 1.5
Variables Numéricas
Variables Categóricas
Búsqueda y tratamiento de valores nulos
Detección de anomalías
La primera técnica que se aplicara a nuestro dataset ya pre-procesado, antes de

aplicar este algoritmo, se creó una copia del dataframe original para tener un
dataframe con nombre df2, para trabajar exclusivamente con detección de
anomalías.
Actividades 3
Aprendizaje
abril del
El algoritmo de detección que se escogió para esta presente actividad es el de

Isolation Forest, lo primero que se realizará será dividir el dataframe en un conjunto
de entrenamiento y prueba.
El próximo paso realizado fue el de entrenar el nuestro modelo basado en los

siguientes hiperparámetros, usando el análisis de data y ajustándolos de acuerdo al
resultado obtenido con diferentes estados.
Habiendo realizado el entrenamiento de nuestro modelo, se procederá a

estructurar las predicciones, y como tenemos la columna de salida original llamada
“isFradulent” de nuestro dataset, se utilizará esta columna para comparar los
resultados de la predicción, y analizar qué tan buena fue la predicción.
Se puede ver que los valores predichos anómalos y los valores que en el dataset son
fraudulentos, son similares. Lo que nos indica que nuestra predicción se acercó bien
a la información real.
Actividades 4
Aprendizaje
abril del
Como el modelo da una predicción casi cercana a los valores reales, se procederá a
realizar las pruebas con el modelo actual, y validar que el resultado sea similar al
entrenamiento.
Para un mejor análisis, se homologará el resultado del modelo que genera -1 para
datos anómalos (fraudulentos) y 1 para datos normales (no fraudulentos), se
transformará a 1 para fraudulentos y 0 para los no fraudulentos.
Se genera una vista grafica de uno de los estimadores del isolation forest.
La comparación grafica de los valores reales contra los predichos, usando las
columnas “Daily_chargeback_avg_amt” y “Total Number of declines/day”, y se
observa que la detección de la anomalía es similar al valor real.
Actividades 5
Aprendizaje
abril del
Para un análisis más preciso del resultado final, y como tenemos el resultado real,
se utilizará la matriz de confusión y la métrica de precisión.
El resultado de la precisión del entrenamiento es menor que el de test lo que nos

indica que no hubo overfitting. Y se obtiene una precisión de 0.86
Teniendo estos resultados se puede analizar las ventajas y desventajas, de este

modelo.
Ventajas Desventajas
No se necesita demasiado procesamiento de la La visualización grafica de los árboles se
información. complica con muchos valores.
Da buenos resultados, teniendo los parámetros
correctos
Es rápido en su procesamiento, dependiendo de
los recursos disponibles
Actividades 6
Aprendizaje
abril del
Agrupamiento
edwin
Conclusiones
Ricardo f
Referencias
Puntuación máxima Peso

Descripción
(puntos) %
Criterio 1 Realiza el análisis descriptivo de los datos

2 20 %
de manera adecuada
Criterio 2 Aplica técnicas de clúster sobre los datos 3 30 %
Criterio 3 Aplica técnicas de detección de anomalías 3 30 %
Criterio 4 Los comentarios sobre los resultados son

2 20 %
pertinentes y adecuados
10 100 %
Actividades 7

Act2 Aa E25

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Act2 Aa E25

Cargado por

Copyright:

Formatos disponibles

Asignatura Datos del alumno Fecha

Edwin Isidro Zuñiga Escobar Javier Chuquillanqui Mendoza 18 de

Actividad grupal: Detección de anomalías y

El objetivo de esta actividad consiste en poner a prueba los conocimientos

La detección de transacciones que son fraude se realizará implementando un

Los datos que se encuentran en el conjunto son los siguientes:

 Merchant_id: Identificación del negocio

 Average Amount/transaction/day: Importe promedio de transacciones

Para dar comienzo al desarrollo de esta actividad, lo primero que hacemos es la

 Pandas y numpy: permiten leer el archivo que contiene el conjunto de datos

Una vez que cargamos las bibliotecas, procedemos a leer el archivo

Análisis Exploratorio de Datos

Búsqueda y tratamiento de valores nulos

La primera técnica que se aplicara a nuestro dataset ya pre-procesado, antes de

nacional de La Rioja (UNIR)

El algoritmo de detección que se escogió para esta presente actividad es el de

El próximo paso realizado fue el de entrenar el nuestro modelo basado en los

Habiendo realizado el entrenamiento de nuestro modelo, se procederá a

nacional de La Rioja (UNIR)

nacional de La Rioja (UNIR)

El resultado de la precisión del entrenamiento es menor que el de test lo que nos

Teniendo estos resultados se puede analizar las ventajas y desventajas, de este

Puntuación máxima Peso

Criterio 1 Realiza el análisis descriptivo de los datos

Criterio 2 Aplica técnicas de clúster sobre los datos 3 30 %

Criterio 3 Aplica técnicas de detección de anomalías 3 30 %

Criterio 4 Los comentarios sobre los resultados son

nacional de La Rioja (UNIR)

También podría gustarte