Metodología CRISP

Modelado
En esta fase se seleccionan y aplican una o varias técnicas de modelado en conjunto de
sus parámetros calibrados a los valores óptimos. Existen varias técnicas para un mismo tipo de
problema de minería de datos. Algunas de dichas técnicas tienen requerimientos específicos en la
forma de los datos. De acuerdo con lo anterior podemos determinar que es necesario con
frecuencia retroceder a la fase de preparación de datos.
Para seleccionar el tipo de técnica o técnicas adecuadas para el conjunto de datos, es
necesario identificar el tipo de información que se obtuvo y cuál es el objetivo general de la
extracción de dichos datos. Podemos ver cómo más adelante las técnicas escogidas cubren la
generación de modelos predictivos permitiendo que el dicho análisis de minería de datos sea
completo y en finalidad profundo.
Algunas de las tareas más importantes de la minería de datos con su respectiva
descripción son:
Predictivas
 Clasificación o discriminación: Asume que hay un conjunto de objetos
caracterizados por algún tipo de rasgo o atributo el cual tiene pertenencia a
distintas clases. Una clase en u valor discretos y es conocido para cada objeto. Lo
anterior, con el fin de clasificar nuevos y sin etiquetas.
 Clasificación Suave: Similar a la anterior pero con la diferencia de que puede
estimar el grado de certeza de la predicción.

 Estimación de probabilidad de clasificación: Aunque funciona igual que la
clasificación y clasificación suave, la diferencia es que el resultado indica la
probabilidad de que un objeto pertenezca a una clase o a otra.
 Categorización: en esta, a un objeto le pertenece una y sólo una clase.
 Regresión: a cada elemento se le asigna un valor de salida cuyo valor es de tipo
numérico.
Descriptivas
 Agrupamiento (clustering): Agrupa elementos de un conjunto de tal forma que
hagan parte de un mismo grupo que posea características similares.
 Correlaciones y factorizaciones: Identifica si dos o más atributos se correlacionan
literalmente de algún modo.
 Reglas de Asociación: Similar al anterior pero con la diferencia de que se utilizan
atributos nominales en lugar de numéricos, utilizado para describir hechos que
ocurren en común dentro de un determinado conjunto de datos.
Para dar solución a las tareas mencionadas anteriormente se necesita de una o varias
técnicas que pueden ser:
 Algebraicas y estadísticas: expresa modelos y patrones mediante fórmulas
algebraicas, funciones lineales y no lineales, distribuciones o valores agregados
estadísticos como medias, variantes, correlaciones, etc.

 Técnicas bayesianas: estima la probabilidad de pertenencia a una clase o grupo
utilizando probabilidades condicionales inversas.
 Conteo de frecuencias y tablas de contingencias: como su nombre indica cuenta
las frecuencias con la que dos o más sucesos se dan conjuntamente.
 Árboles de decisión y sistemas de aprendizaje de reglas: basado en algoritmos de
“divide y vencerás”.
 Relaciones declarativas y estructurales: representan modelos mediante lenguajes
declarativos como lenguajes lógicos, funcionales o ambos.
 Redes neuronales: aprenden de un modelo mediante el entrenamiento de los pesos
que conecten un conjunto de nodos o neuronas.
 Técnicas basadas en núcleos y máquinas de soporte vectorial: basada en
transformaciones que pueden aumentar la dimensionalidad, llamadas núcleos o
kernel, intentan maximizar el margen entre grupos o clases formadas.
 Estocásticas y difusas: incluye la mayoría de técnicas que juntos a las redes
neuronales permiten una computación flexible.
 Casos en densidad o distancia: basados en distancias ya sea directo o mediante
vecinos próximos o con estimación de funciones de densidad.
A continuación, se presenta la selección de técnicas de modelado requeridas para el
procesamiento y evaluación de los datos.

Técnica de Modelado
En este punto es dónde se selecciona el modelado real que se utilizará para realizar el
siguiente checklist:
 Decidir las técnicas apropiadas para el escenario, teniendo en cuenta la
herramienta seleccionada.
 Registrar las técnicas de modelado reales que se van a emplear.
 Analizar cualquier asunción realizada por la técnica de modelado sobre los datos
(por ejemplo, la calidad, el formato, la distribución), compararlas con el informe
de descripción de datos, y asegurarse de que siguen siendo válidas.

El software elegido para realizar la minería de datos es RapidMiner, este software permite
desarrollar procesos de análisis de datos dentro de un entorno gráfico utilizado específicamente
en entornos académicos y de investigación con un tratamiento ilimitado de datos.
De los modelos elegidos el que más se ajusta a los datos propuestos es el algoritmo KNN
K-Nearest neighbors por sus siglas en inglés o K Vacinos más Próximos por sus siglas en
español, ya que dicho algoritmo se puede utilizar para problemas de predicción tanto como un
clasificador como de regresión, en este caso detectar fraude financiero con el dataset Synthetic
Financial Datasets For Fraud Detection que contiene alrededor de un millón y medio de datos
para realizar la valoración, este algoritmo nos facilita la inerpretación de la salida de datos, su
bajo tiempo de cálculo y su alto poder predictivo en comparación con otros modelos.
Tabla 1. Comparación de modelos predictivos en donde 3 es el mejor valor y 1 el menos

valor.
Logistic Random
CART KNN
Regression Forest
 Fácil de
2 3 1 3
interpretar
 Tiempo de
3 2 1 3
cálculo
 Poder
2 2 3 2
Predictivo
El algoritmo KNN almacena todos los casos disponibles y clasifica los casos nuevos en
función de la similitud para la clasificación de los datos se apoya de las funciones de distancias:
k
Euclidean= √∑
i=1
( xi − y i)2
k
Manhattan=∑ ¿ xi − y i∨¿ ¿
i=1
k 1
Minkowski=∑ (| xi − y i|) q
i=1
Se debe tener en cuenta que las tres medidas de distancia son válidas para variables
contínuas; cuando existen variables categóricas se usa la distancia de Hamming:
k
D H =∑|x i− y i|
i=1
x= y ⇒ D=0
x ≠ y ⇒ D=1
Tabla 2. Ejemplo de distancias utilizando la Distancia de Hamming

X Y Distancia
Masculino Masculino 0
Masculino Femenino 1
Plan de prueba
Antes de construir el un modelo se debe realizar o probar la calidad y validéz del modelo
que está usando, de este modo podemos evaluar y entrenar los mismos para determinar cómo se
dividen los datos para entrenamiento y evaluación. De esta manera comprobar que el test de
prueba es adecuado para el modelos, para preparar los datos que se requieren para la prueba.
El método KNN que se utilizará para probar la veracidad de los datos y su respectiva
calidad utiliza como medidas el error cuadrático medio, el error absoluto medio y la confianza
predictiva dividiendo los datos en dos grupos en dónde el 60% de los datos se utilizan para
entrenamiento y el 40% restante para realizar la prueba aunque este porcentaje puede ser
modificados.
Construcción del modelo
Luego de determinar qué datos serán necesarion para esta prueba de entrenamiento se
ejecuta el modelo sobre el mismo eligiendo los parámetros que podrán ser útiles en el futuro para
que de esta manera los parámetros de ejecución produzcan un modelo adecuado.
Como objetivo de la prueba es determinar o predecir qué tipo de transacción se puede
considerar como fraude, los datos requeridos del datasetde datos “Synthetic Financial Datasets
For Fraud Detection” para determinar dichos patrones de fraudes son “step”, “type”, “amount”,
“oldbalanceOrg”, “newbalanceOrig”, “oldbalanceDest”, “newbalanceDest” y “isFraud”.
Evaluación del modelo
Para realizar una correcta evaluación e interpretación del modelo se debe aplicar la
técnica más de una vez. Luego de comparar los datos se realiza un resumen de los resultados
junto con la calidad que haya obtenido y así determinar la credibilidad del modelo elegido de
este modo se puede concluir si la información obtenida es nueva y útil.

Con esta tarea concluye esta fase, centrada propiamente en el modelado de los datos
mediante algoritmos de aprendizaje computacional.
Implementación
En esta fase podemos determinar que la creación de un modelo no necesariamente
significa que sea el final de un proyecto ya que, dependiendo de los requisitos de una
organización, el desarrollo de la solución puede culminar desde un simple reporte o informe
hasta la periodicidad o automatización de un proceso de análisis.
Reunidos todos los datos se procede a explicar al cliente cuál es la mejor forma para
poner en marcha el funcionamiento del proyecto que se ha construido al realizar la integración de
cada fase además de presentar de forma legible o entendible los datos que el modelo arroja con el
fin de crear una estrategia de mantenimiento del proyecto en donde se incluyan posibles mejoras
y/o dificultades que puedan presentarse en un fututo a la hora de realizarlo.
Planifcación de despliegue
Antes de empezar a realizar la planeación y a modo introductorio, según Asobancaria, el
60% de los fraudes bancarios en Colombia son de tipo electrónico, la mayoría de ellos suceden
desde links que se dirigin a páginas ficticias (Infolaft, n.d.).

Para aplicar este modelo, las instuticiones financieras interesadas en la gestión y analítica
avanzada, en la reducción de exposición al riesgo, predicción y anticipación de fraudes
financieros es necesario que se ponga a disposición la base de datos real del comercio para poner
en marcha el modelo, cabe destacar que las bases de datos de las diferentes entidades varían en
su estructura es posile que deban repetir algunas fases con el fin de adaptarse a la entidad
interesada, esto conlleva a que se deba tomar mucho más tiempo del estimado, puesto que la
cantidad de datos indiscutiblemente sobreapasría las gigas de información que poiblemente
contengan ruido requierendo un exhaustivo y prolongado nivel de procesamiento. (Cortina,
2015)
Planificación de control y del mantenimiento
Este proceso debe ser supervisado y controlado debido a que diariamente los usuarios de
las diferentes instituciones financieras realizan miles de transacciones al día es por ello que sería
necesario extraer algunas muestras que sean correctamente clasificadas con el fin de organizar la
información y al ser pasada por el modelo otorgue resultados m´ás satisfactorios.
Cabe destacar que existe una posibilidad de que sujan modelos que requieran de una
mayor complejidad, esto implica directamente a que se deba aumentar la necesidad de control,
dicho control es de tipo automático que según se solicite puede realizar informes programados.
Adicionalmente los pronósticos o detecciones de fraudes de forma instantánea se dee tomar en
cuenta para llevar a cabo infiriendo directamente en la necesidad de un equipo mucho más
sofisticado.
Creación del informa final
En esta etapa es necesario presentar un informe resumido y detallado que contenga los
puntos ás importantes del proyecto resolviendo los cabos sueltos de la documentación previa este
resumen es:

Metodología CRISP

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Metodología CRISP

Cargado por

Copyright:

Formatos disponibles

Modelado

En esta fase se seleccionan y aplican una o varias técnicas de modelado en conjunto de

problema de minería de datos. Algunas de dichas técnicas tienen requerimientos específicos en la

frecuencia retroceder a la fase de preparación de datos.

Para seleccionar el tipo de técnica o técnicas adecuadas para el conjunto de datos, es

necesario identificar el tipo de información que se obtuvo y cuál es el objetivo general de la

completo y en finalidad profundo.

Algunas de las tareas más importantes de la minería de datos con su respectiva

 Clasificación o discriminación: Asume que hay un conjunto de objetos

caracterizados por algún tipo de rasgo o atributo el cual tiene pertenencia a

anterior, con el fin de clasificar nuevos y sin etiquetas.

 Clasificación Suave: Similar a la anterior pero con la diferencia de que puede

estimar el grado de certeza de la predicción.

clasificación y clasificación suave, la diferencia es que el resultado indica la

probabilidad de que un objeto pertenezca a una clase o a otra.

 Categorización: en esta, a un objeto le pertenece una y sólo una clase.

 Regresión: a cada elemento se le asigna un valor de salida cuyo valor es de tipo

 Agrupamiento (clustering): Agrupa elementos de un conjunto de tal forma que

hagan parte de un mismo grupo que posea características similares.

 Correlaciones y factorizaciones: Identifica si dos o más atributos se correlacionan

literalmente de algún modo.

 Reglas de Asociación: Similar al anterior pero con la diferencia de que se utilizan

atributos nominales en lugar de numéricos, utilizado para describir hechos que

ocurren en común dentro de un determinado conjunto de datos.

técnicas que pueden ser:

 Algebraicas y estadísticas: expresa modelos y patrones mediante fórmulas

algebraicas, funciones lineales y no lineales, distribuciones o valores agregados

estadísticos como medias, variantes, correlaciones, etc.

utilizando probabilidades condicionales inversas.

 Conteo de frecuencias y tablas de contingencias: como su nombre indica cuenta

las frecuencias con la que dos o más sucesos se dan conjuntamente.

 Árboles de decisión y sistemas de aprendizaje de reglas: basado en algoritmos de

 Relaciones declarativas y estructurales: representan modelos mediante lenguajes

declarativos como lenguajes lógicos, funcionales o ambos.

 Redes neuronales: aprenden de un modelo mediante el entrenamiento de los pesos

que conecten un conjunto de nodos o neuronas.

 Técnicas basadas en núcleos y máquinas de soporte vectorial: basada en

transformaciones que pueden aumentar la dimensionalidad, llamadas núcleos o

kernel, intentan maximizar el margen entre grupos o clases formadas.

 Estocásticas y difusas: incluye la mayoría de técnicas que juntos a las redes

neuronales permiten una computación flexible.

 Casos en densidad o distancia: basados en distancias ya sea directo o mediante

vecinos próximos o con estimación de funciones de densidad.

A continuación, se presenta la selección de técnicas de modelado requeridas para el

procesamiento y evaluación de los datos.

 Decidir las técnicas apropiadas para el escenario, teniendo en cuenta la

 Registrar las técnicas de modelado reales que se van a emplear.

(por ejemplo, la calidad, el formato, la distribución), compararlas con el informe

de descripción de datos, y asegurarse de que siguen siendo válidas.

desarrollar procesos de análisis de datos dentro de un entorno gráfico utilizado específicamente

en entornos académicos y de investigación con un tratamiento ilimitado de datos.

Tabla 1. Comparación de modelos predictivos en donde 3 es el mejor valor y 1 el menos

contínuas; cuando existen variables categóricas se usa la distancia de Hamming:

Tabla 2. Ejemplo de distancias utilizando la Distancia de Hamming

Construcción del modelo

que de esta manera los parámetros de ejecución produzcan un modelo adecuado.

Como objetivo de la prueba es determinar o predecir qué tipo de transacción se puede

“oldbalanceOrg”, “newbalanceOrig”, “oldbalanceDest”, “newbalanceDest” y “isFraud”.

Evaluación del modelo

este modo se puede concluir si la información obtenida es nueva y útil.

mediante algoritmos de aprendizaje computacional.

En esta fase podemos determinar que la creación de un modelo no necesariamente

organización, el desarrollo de la solución puede culminar desde un simple reporte o informe