Está en la página 1de 7

PROYECTO DE CLASIFICACIÓN: BI-CLASE

Gustavo Adolfo Aguirre M. Verónica Domínguez Ruiz. Jesús Salvador Suarez. Edward Martínez.
Departamento de Antioquia
Instituto tecnológico metropolitano

Gustavoaguirre309603@correo.itm.edu.co, veronicadominguez272914@correo.itm.edu.co,
jesussuarez110715@correo.itm.edu.co

RESUMEN comportamientos o características que se han


visto en los datos ya almacenados (el
Este documento presenta la elaboración de un histórico de datos). El aprendizaje
código de clasificación a través del Machine supervisado permite buscar patrones en datos
Learning, el cual presenta 284807 datos a históricos relacionando todos campos con un
través de 28 atributos relacionados con el campo especial, llamado campo objetivo.
rendimiento. A través del análisis se hallaron
resultados expuestos a través de tablas y Los algoritmos de clasificación se usan
gráficos en que se establecen diferencias cuando el resultado deseado es una etiqueta
entre métodos, ajuste del modelo y métricas discreta. la clasificación binaria es un tipo de
de desempeño expuestas. clasificación en el que solo se pueden asignar
dos clases diferentes (0 o 1).

Palabras clave; algoritmo, base de datos, Un perceptrón simple, es conocido como una
clasificación, características, entrenamiento, red neuronal, es un clasificador cuyo
machine learning, percepton, predicción.
funcionamiento concite en leer los valores de
entrada, suma todos los valores de entrada de
acuerdo con unos pesos y el resultado lo
INTRODUCCION introduce en una función de activación que
genera el resultado final.
Machine Learning es una disciplina científica
del ámbito de la Inteligencia Artificial que
crea sistemas que aprenden automáticamente.
Aprender en este contexto quiere decir
identificar patrones complejos en millones de
datos. La máquina que realmente aprende es
un algoritmo que revisa los datos y es capaz
de predecir comportamientos futuros.

Se divide en dos áreas principales:


aprendizaje supervisado y aprendizaje no
supervisado. Aunque pueda parecer que el
primero se refiere a la predicción con Imagen 1. Perceptrón simple
intervención humana y la segunda no, estos
dos conceptos tienen más que ver con qué Método del gradiente descendiente es un
queremos hacer con los datos. algoritmo de optimización que permite
El entrenamiento es el proceso en el que se encontrar de forma automática el mínimo de
detectan los patrones de un conjunto de datos, una función sea local o no, el método se basa
es decir, es el corazón de Machine Learning. en el uso del gradiente, que permite conducir
Una vez identificados los patrones, el al algoritmo, para de manera progresiva,
aprendizaje supervisado consiste en hacer acercarse al mínimo ideal de la función.
predicciones a futuro basadas en
También, las etiquetas se encuentran en la
columna clase y toman valor de (1) si ocurrió
un fraude o (0) en caso contrario.

Así, para que un sistema determine si ha


ocurrido una transacción anormal que pueda
ser considerada como fraude, un modelo de
clasificación es entrenado mediante un
algoritmo de aprendizaje supervisado.
Imagen 2. Grafica del método del gradiente
descendente
El perceptrón simple
∂ J (W 0 , W 1 )
W J =W J −α
∂ WJ
El perceptrón consiste en un modelo
matemático inspirado en la biología celular
DESARROLLO de la neurona, buscando representar la forma
en como el cerebro procesa y propaga la
El dataset1 se compone de transacciones información.
realizadas mediante tarjeta de crédito durante
dos días en septiembre de 2013, reportándose En este modelo, la activación a está dada por
492 fraudes de un total de 284807 la combinación lineal entre cada característica
transacciones. Debido a esto, los datos se de entrada x i con un peso asociado w i, se
encuentran desbalanceados, ya que los añade un parámetro de sesgo o umbral b y se
fraudes (clase positiva) corresponden con el evalúa una función de activación g.
0.172% de la cantidad total de transacciones.
m

Sin embargo, a excepción del tiempo y la z j =∑ wi x i+ b


i=1
cantidad, los datos originales no son
proporcionados por confidencialidad, por lo a j=g ( z j )
que las características V i (para i=1 , 2 ,⋯ ,28 )
dadas en el dataset consisten en la Donde w_i y b representan los parámetros del
transformación de los datos originales modelo, los cuales son ajustados
mediante Análisis de Componentes iterativamente por medio del método de
Principales (PCA, de Principal Components descenso del gradiente.
Analysis).
∂E
w i=w i−α
∂ wi
Adicionalmente, las características de
cantidad y tiempo representan los montos y
∂E
los segundos que han transcurrido a partir de b=b−α
la primera transacción.
∂b
Siendo α la tasa de aprendizaje.
Para esto, una función que se encarga de
medir el costo o error es derivada respecto a
1 cada uno de los parámetros del modelo.
https://www.kaggle.com/datasets/when
amancodes/fraud-detection
Si se utilizan las siguientes funciones de costo Precisión:
y activación:
1
n Se refiere a la dispersión del conjunto de
E= ∑ ( y j −a j )2 valores obtenidos a partir de mediciones
2 n j=1
repetidas de una magnitud. Cuanto menor es
1 la dispersión mayor la precisión.
g( z j)=
1+e− z j

VP
Por regla de la cadena, el término gradiente VP+ FP
respecto a cada parámetro está dado por:

∂E ∂E ∂aj ∂zj Sensibilidad:


= ∙ ∙
∂ wi ∂ a j ∂ z j ∂ w i
Sin embargo: Es la proporción de casos positivos que
fueron correctamente identificadas por el
∂E ∂aj 1
n
∙ = ∑ ( y j−a j ) ∙ g' ( z j )=δ j algoritmo.
∂ a j ∂ z j n j=1 VP
De este modo:
VP+ FN
∂E/(∂w_i )=δ_j (∂z_j)/(∂w_i )=δ_j x_i

∂E ∂z Especificidad:
=δ j j =δ j
∂b ∂b
Se trata de los casos negativos que el
Al término δ_j se le conoce como regla delta, algoritmo ha clasificado correctamente.
mientras que g^' (z_j ) representa la derivada Expresa cuan bien puede el modelo detectar
de la función de activación, la cual puede ser esa clase.
reescrita en términos de sí misma como:
VN
g ( z j )=g ( z j ) ( 1−g ( z j ) )
' VN + FP

F1-Score:
Nota: En toda la notación utilizada, se asume
La puntuación F1 se define como la media
que X∈R^(m×n), donde m es el número de
armónica de precisión y recuperación .
características, mientras n es la cantidad de
ejemplos de entrenamiento.
2 ×VP
Medidas de desempeño 2× VP+ FP+ FN

Las siguientes son medidas de desempeño Donde:


que pueden ser obtenidas a partir de la matriz
de confusión: Verdaderos positivos (VP): La etiqueta es 1 y
la predicción es 1.
Exactitud: Verdaderos negativos (VN): La etiqueta es 0
se refiere a lo cerca que está el resultado de y la predicción es 0.
una medición del valor verdadero. Falsos positivos (FP): La etiqueta es 0 y la
predicción es 1.
VP +VN Falsos negativos (FN): La etiqueta es 1 y la
predicción es 0.
VP+VN + FP+ FN
Análisis de Resultados

Debido a que el total de ejemplos para la


clase (1) consisten en el 0.172% del total de
muestras del dataset, se realizó un balance de
los datos entre clases.

Para esto, los ejemplos de entrenamiento son


permutados aleatoriamente y se seleccionan
los ejemplos por submuestreo. De este modo, Figura 1: Costo (izq.) y matriz de confusión
la cantidad de muestras para la clase (0) son (der.) al entrenar con todas las características
seleccionadas para coincidir con la cantidad sin normalizar.
correspondiente de la clase (1), mientras que
las demás no son utilizadas durante el
entrenamiento del modelo, teniendo así un
dataset con m=30 características y n=984
ejemplos de entrenamiento.

Después, los datos son nuevamente


permutados de forma aleatoria para entrenar Figura 2: Costo (izq.) y matriz de confusión
el modelo durante 100 iteraciones, utilizando (der.) al entrenar con todas las características
una tasa de aprendizaje α=0.02 y todas las 30 normalizadas.
características normalizadas y sin normalizar.
Tabla 1: Medidas de desempeño al entrenar
Las Figuras 1-2 muestran como disminuye el con todas las características.
error durante el entrenamiento a medida que
incrementan las iteraciones (épocas), así Métrica Sin Normalizar Normalizando
como la evaluación del modelo mediante la Tiempo (s) 0,0620 0,0402
matriz de confusión. Además, la Tabla 1 Exactitud 0,50 0,9430
muestra el resultado del tiempo que tardó el Precisión 0,00 1,00
entrenamiento y otras métricas basadas en la Sensibilidad 0,00 0,8861
matriz de confusión como: exactitud, Especificidad 1,00 1,00
precisión, sensibilidad, especificidad y F1- F1-Score 0,00 0,9396
Score.
El procedimiento se repitió para diferentes
Sin embargo, al entrenar con la base de datos combinaciones entre características.
completa (todas las características) sin Las Figuras 3-4, 5-6 y 7-8 muestran como
normalizar, ninguna muestra fue evaluada disminuye el costo durante el entrenamiento,
como verdadero positivo y el costo se así como las correspondientes matrices de
mantuvo constante en 0.25 durante poco más confusión al entrenar con los siguientes pares
de las últimas 90 épocas. de características normalizadas y sin
normalizar: 4 - 9, 2 - 5 y 9 - 11.
Por otra parte, al entrenar con todos los datos Igualmente, las Tablas 2, 3 y 4 muestran las
normalizados, el costo disminuye lentamente medidas de desempeño respectivas al entrenar
a partir de las 100 épocas para un error estos modelos con los pares de características
comprendido entre 0.02 - 0.03. descritos anteriormente.

Al observar las medidas de desempeño de la


Tabla 1, la exactitud es de 0.5 para los datos
sin normalizar, mientras que al normalizarlos
la exactitud es del 0.943.
Figura 6: Costo (izq.) y matriz de confusión
(der.) al entrenar con características 2 y 5
normalizadas.

Tabla 3: Medidas de desempeño con


características 2 y 5.

Figura 3: Costo (izq.) y matriz de confusión Métrica Sin Normalizar Normalizando


(der.) al entrenar con características 4 y 9 sin Tiempo (s) 0,02 0,028
normalizar. Exactitud 0,8302 0,7774
Precisión 0,9052 0,9756
Sensibilidad 0,7378 0,5691
Especificidad 0,9227 0,9857
F1-Score 0,8129 0,7188

Figura 4: Costo (izq.) y matriz de confusión


(der.) al entrenar con características 4 y 9
normalizadas.

Tabla 2: Medidas de desempeño al entrenar Figura 7: Costo (izq.) y matriz de confusión


con características 4 y 9. (der.) al entrenar con características 9 y 11 sin
normalizar.
Métrica Sin Normalizar Normalizando
Tiempo (s) 0,029 0,025
Exactitud 0,8719 0,8546
Precisión 0,9121 0,9308
Sensibilidad 0,8231 0,7662
Especificidad 0,9207 0,9430
F1-Score 0,8653 0,8405
Figura 8: Costo (izq.) y matriz de confusión
(der.) al entrenar con características 9 y 11
normalizadas.

Tabla 4: Medidas de desempeño con


características 9 y 11.

Métrica Sin Normalizar Normalizando


Figura 5: Costo (izq.) y matriz de confusión Tiempo (s) 0,269 0,316
(der.) al entrenar con características 2 y 5 sin Exactitud 0,88 0,8790
normalizar. Precisión 0,9389 0,9388
Sensibilidad 0,8130 0,8109
Especificidad 0,9471 0,9471
F1-Score 0,8714 0,8702

Al comparar resultados, las gráficas de costo


muestran que el error alcanza un valor estable
en aproximadamente en 10 épocas o menos
cuando se entrena con datos sin normalizar
para los tres pares de características.
un desempeño del F1-Score de 0.93 (el mayor
Sin embargo, al entrenar con los datos en las pruebas realizadas en este trabajo), el
normalizados, el error disminuye más evaluar con datos que no fueron utilizados en
lentamente conforme se alcanza el número de la etapa de entrenamiento se evidenció que el
épocas permitido para el entrenamiento. modelo no puede generalizar. Se recomienda
entonces probar con una arquitectura que
En ambos casos, para los primeros dos grupos involucre más capas, así como más neuronas
de características, los tiempos de (perceptrones) en cada capa. También probar
entrenamiento varían aproximadamente entre otras funciones de activación que, si bien han
la mitad y la tercera parte del tiempo sido reportadas en la literatura, no han sido
necesario para entrenar el modelo con todas consideradas en la naturaleza de este trabajo.
las características del dataset.
Durante las etapas de entrenamiento
Aun así, para el par de características 9 - 11 el de los diferentes modelos se evidenció una
número de épocas permitidas se estableció en reducción en los tiempos de entrenamiento al
1000 y la métrica de F1-Score fue de 0.87, la elegir dos características. Sin embargo, el
cual resultó mayor en comparación a los entrenamiento puede ser detenido cuando el
pares 4 - 9 y 2 – 5, cuyos modelos fueron valor del costo mantiene una tendencia
entrenados con 100 épocas. constante, evitando un sobreajuste de los
parámetros del modelo.
Sin embargo, las mejores medidas de
desempeño que fueron obtenidas para Así mismo, al entrenar con una base
entrenamiento corresponden con el modelo de datos sin normalizar y eligiendo una tasa
entrenado con todas las características de aprendizaje de α=0.02, se registró una
normalizadas (Tabla 1), donde la métrica F1- pronta disminución del costo como muestran
Score fue de 0.93. los gráficos.

Para poder hacer la validación de cada Referencias


modelo, el dataset es particionado en una
relación 70 – 30 para entrenamiento y prueba
respectivamente. Después, el proceso de KAPIL SHARMA. (2019). Detección de
entrenamiento es realizado y los nuevos fraude con tarjeta de crédito.
modelos entrenados son evaluados con la https://www.kaggle.com/code/kapilsh
partición de prueba.
armma/credit-card-fraud-detection/
Si bien las métricas de desempeño siguen data
siendo consistentes durante la etapa de JUAN IGNACIO BARRIOS ARCE. (2019).
entrenamiento, al evaluar los datos de prueba La matriz de confusión y sus
estos no fueron clasificados correctamente.
métricas.
Este procedimiento se repitió con la elección
https://www.juanbarrios.com/la-
de pares de características, así como variando
el valor de α y el número de iteraciones matriz-de-confusion-y-sus-metricas/
permitidas, lo cual supone que el algoritmo JOOS KORSTANJE.(2021). La puntuacion
del perceptrón no resulta ser apropiado para de la F1.
generalizar en la tarea de detección de fraude
https://towardsdatascience.com/the-
utilizando estos datos.
f1-score-bec2bbc38aa6
Conclusiones

Aunque entrenar el modelo utilizando


todas las características normalizadas reportó

También podría gustarte