Documentos de Académico
Documentos de Profesional
Documentos de Cultura
sus parámetros calibrados a los valores óptimos. Existen varias técnicas para un mismo tipo de
forma de los datos. De acuerdo con lo anterior podemos determinar que es necesario con
extracción de dichos datos. Podemos ver cómo más adelante las técnicas escogidas cubren la
generación de modelos predictivos permitiendo que el dicho análisis de minería de datos sea
descripción son:
Predictivas
distintas clases. Una clase en u valor discretos y es conocido para cada objeto. Lo
numérico.
Descriptivas
Para dar solución a las tareas mencionadas anteriormente se necesita de una o varias
“divide y vencerás”.
En este punto es dónde se selecciona el modelado real que se utilizará para realizar el
siguiente checklist:
herramienta seleccionada.
Analizar cualquier asunción realizada por la técnica de modelado sobre los datos
De los modelos elegidos el que más se ajusta a los datos propuestos es el algoritmo KNN
K-Nearest neighbors por sus siglas en inglés o K Vacinos más Próximos por sus siglas en
español, ya que dicho algoritmo se puede utilizar para problemas de predicción tanto como un
clasificador como de regresión, en este caso detectar fraude financiero con el dataset Synthetic
Financial Datasets For Fraud Detection que contiene alrededor de un millón y medio de datos
para realizar la valoración, este algoritmo nos facilita la inerpretación de la salida de datos, su
bajo tiempo de cálculo y su alto poder predictivo en comparación con otros modelos.
El algoritmo KNN almacena todos los casos disponibles y clasifica los casos nuevos en
función de la similitud para la clasificación de los datos se apoya de las funciones de distancias:
k
Euclidean= √∑
i=1
( xi − y i)2
k
Manhattan=∑ ¿ xi − y i∨¿ ¿
i=1
k 1
Minkowski=∑ (| xi − y i|) q
i=1
Se debe tener en cuenta que las tres medidas de distancia son válidas para variables
k
D H =∑|x i− y i|
i=1
x= y ⇒ D=0
x ≠ y ⇒ D=1
Antes de construir el un modelo se debe realizar o probar la calidad y validéz del modelo
que está usando, de este modo podemos evaluar y entrenar los mismos para determinar cómo se
dividen los datos para entrenamiento y evaluación. De esta manera comprobar que el test de
prueba es adecuado para el modelos, para preparar los datos que se requieren para la prueba.
El método KNN que se utilizará para probar la veracidad de los datos y su respectiva
calidad utiliza como medidas el error cuadrático medio, el error absoluto medio y la confianza
predictiva dividiendo los datos en dos grupos en dónde el 60% de los datos se utilizan para
entrenamiento y el 40% restante para realizar la prueba aunque este porcentaje puede ser
modificados.
Luego de determinar qué datos serán necesarion para esta prueba de entrenamiento se
ejecuta el modelo sobre el mismo eligiendo los parámetros que podrán ser útiles en el futuro para
considerar como fraude, los datos requeridos del datasetde datos “Synthetic Financial Datasets
For Fraud Detection” para determinar dichos patrones de fraudes son “step”, “type”, “amount”,
Para realizar una correcta evaluación e interpretación del modelo se debe aplicar la
técnica más de una vez. Luego de comparar los datos se realiza un resumen de los resultados
junto con la calidad que haya obtenido y así determinar la credibilidad del modelo elegido de
Implementación
significa que sea el final de un proyecto ya que, dependiendo de los requisitos de una
Reunidos todos los datos se procede a explicar al cliente cuál es la mejor forma para
cada fase además de presentar de forma legible o entendible los datos que el modelo arroja con el
fin de crear una estrategia de mantenimiento del proyecto en donde se incluyan posibles mejoras
Planifcación de despliegue
60% de los fraudes bancarios en Colombia son de tipo electrónico, la mayoría de ellos suceden
financieros es necesario que se ponga a disposición la base de datos real del comercio para poner
en marcha el modelo, cabe destacar que las bases de datos de las diferentes entidades varían en
su estructura es posile que deban repetir algunas fases con el fin de adaptarse a la entidad
interesada, esto conlleva a que se deba tomar mucho más tiempo del estimado, puesto que la
2015)
Este proceso debe ser supervisado y controlado debido a que diariamente los usuarios de
las diferentes instituciones financieras realizan miles de transacciones al día es por ello que sería
necesario extraer algunas muestras que sean correctamente clasificadas con el fin de organizar la
Cabe destacar que existe una posibilidad de que sujan modelos que requieran de una
mayor complejidad, esto implica directamente a que se deba aumentar la necesidad de control,
dicho control es de tipo automático que según se solicite puede realizar informes programados.
cuenta para llevar a cabo infiriendo directamente en la necesidad de un equipo mucho más
sofisticado.
Creación del informa final
En esta etapa es necesario presentar un informe resumido y detallado que contenga los
puntos ás importantes del proyecto resolviendo los cabos sueltos de la documentación previa este
resumen es: