Está en la página 1de 10

Modelado

En esta fase se seleccionan y aplican una o varias técnicas de modelado en conjunto de

sus parámetros calibrados a los valores óptimos. Existen varias técnicas para un mismo tipo de

problema de minería de datos. Algunas de dichas técnicas tienen requerimientos específicos en la

forma de los datos. De acuerdo con lo anterior podemos determinar que es necesario con

frecuencia retroceder a la fase de preparación de datos.

Para seleccionar el tipo de técnica o técnicas adecuadas para el conjunto de datos, es

necesario identificar el tipo de información que se obtuvo y cuál es el objetivo general de la

extracción de dichos datos. Podemos ver cómo más adelante las técnicas escogidas cubren la

generación de modelos predictivos permitiendo que el dicho análisis de minería de datos sea

completo y en finalidad profundo.

Algunas de las tareas más importantes de la minería de datos con su respectiva

descripción son:

Predictivas

 Clasificación o discriminación: Asume que hay un conjunto de objetos

caracterizados por algún tipo de rasgo o atributo el cual tiene pertenencia a

distintas clases. Una clase en u valor discretos y es conocido para cada objeto. Lo

anterior, con el fin de clasificar nuevos y sin etiquetas.

 Clasificación Suave: Similar a la anterior pero con la diferencia de que puede

estimar el grado de certeza de la predicción.


 Estimación de probabilidad de clasificación: Aunque funciona igual que la

clasificación y clasificación suave, la diferencia es que el resultado indica la

probabilidad de que un objeto pertenezca a una clase o a otra.

 Categorización: en esta, a un objeto le pertenece una y sólo una clase.

 Regresión: a cada elemento se le asigna un valor de salida cuyo valor es de tipo

numérico.

Descriptivas

 Agrupamiento (clustering): Agrupa elementos de un conjunto de tal forma que

hagan parte de un mismo grupo que posea características similares.

 Correlaciones y factorizaciones: Identifica si dos o más atributos se correlacionan

literalmente de algún modo.

 Reglas de Asociación: Similar al anterior pero con la diferencia de que se utilizan

atributos nominales en lugar de numéricos, utilizado para describir hechos que

ocurren en común dentro de un determinado conjunto de datos.

Para dar solución a las tareas mencionadas anteriormente se necesita de una o varias

técnicas que pueden ser:

 Algebraicas y estadísticas: expresa modelos y patrones mediante fórmulas

algebraicas, funciones lineales y no lineales, distribuciones o valores agregados

estadísticos como medias, variantes, correlaciones, etc.


 Técnicas bayesianas: estima la probabilidad de pertenencia a una clase o grupo

utilizando probabilidades condicionales inversas.

 Conteo de frecuencias y tablas de contingencias: como su nombre indica cuenta

las frecuencias con la que dos o más sucesos se dan conjuntamente.

 Árboles de decisión y sistemas de aprendizaje de reglas: basado en algoritmos de

“divide y vencerás”.

 Relaciones declarativas y estructurales: representan modelos mediante lenguajes

declarativos como lenguajes lógicos, funcionales o ambos.

 Redes neuronales: aprenden de un modelo mediante el entrenamiento de los pesos

que conecten un conjunto de nodos o neuronas.

 Técnicas basadas en núcleos y máquinas de soporte vectorial: basada en

transformaciones que pueden aumentar la dimensionalidad, llamadas núcleos o

kernel, intentan maximizar el margen entre grupos o clases formadas.

 Estocásticas y difusas: incluye la mayoría de técnicas que juntos a las redes

neuronales permiten una computación flexible.

 Casos en densidad o distancia: basados en distancias ya sea directo o mediante

vecinos próximos o con estimación de funciones de densidad.

A continuación, se presenta la selección de técnicas de modelado requeridas para el

procesamiento y evaluación de los datos.


Técnica de Modelado

En este punto es dónde se selecciona el modelado real que se utilizará para realizar el

siguiente checklist:

 Decidir las técnicas apropiadas para el escenario, teniendo en cuenta la

herramienta seleccionada.

 Registrar las técnicas de modelado reales que se van a emplear.

 Analizar cualquier asunción realizada por la técnica de modelado sobre los datos

(por ejemplo, la calidad, el formato, la distribución), compararlas con el informe

de descripción de datos, y asegurarse de que siguen siendo válidas.


El software elegido para realizar la minería de datos es RapidMiner, este software permite

desarrollar procesos de análisis de datos dentro de un entorno gráfico utilizado específicamente

en entornos académicos y de investigación con un tratamiento ilimitado de datos.

De los modelos elegidos el que más se ajusta a los datos propuestos es el algoritmo KNN

K-Nearest neighbors por sus siglas en inglés o K Vacinos más Próximos por sus siglas en

español, ya que dicho algoritmo se puede utilizar para problemas de predicción tanto como un

clasificador como de regresión, en este caso detectar fraude financiero con el dataset Synthetic

Financial Datasets For Fraud Detection que contiene alrededor de un millón y medio de datos

para realizar la valoración, este algoritmo nos facilita la inerpretación de la salida de datos, su

bajo tiempo de cálculo y su alto poder predictivo en comparación con otros modelos.

Tabla 1. Comparación de modelos predictivos en donde 3 es el mejor valor y 1 el menos


valor.
Logistic Random
CART KNN
Regression Forest
 Fácil de
2 3 1 3
interpretar
 Tiempo de
3 2 1 3
cálculo
 Poder
2 2 3 2
Predictivo

El algoritmo KNN almacena todos los casos disponibles y clasifica los casos nuevos en

función de la similitud para la clasificación de los datos se apoya de las funciones de distancias:

k
Euclidean= √∑
i=1
( xi − y i)2
k
Manhattan=∑ ¿ xi − y i∨¿ ¿
i=1

k 1
Minkowski=∑ (| xi − y i|) q
i=1

Se debe tener en cuenta que las tres medidas de distancia son válidas para variables

contínuas; cuando existen variables categóricas se usa la distancia de Hamming:

k
D H =∑|x i− y i|
i=1

x= y ⇒ D=0

x ≠ y ⇒ D=1

Tabla 2. Ejemplo de distancias utilizando la Distancia de Hamming


X Y Distancia
Masculino Masculino 0
Masculino Femenino 1
Plan de prueba

Antes de construir el un modelo se debe realizar o probar la calidad y validéz del modelo

que está usando, de este modo podemos evaluar y entrenar los mismos para determinar cómo se

dividen los datos para entrenamiento y evaluación. De esta manera comprobar que el test de

prueba es adecuado para el modelos, para preparar los datos que se requieren para la prueba.
El método KNN que se utilizará para probar la veracidad de los datos y su respectiva

calidad utiliza como medidas el error cuadrático medio, el error absoluto medio y la confianza

predictiva dividiendo los datos en dos grupos en dónde el 60% de los datos se utilizan para

entrenamiento y el 40% restante para realizar la prueba aunque este porcentaje puede ser

modificados.

Construcción del modelo

Luego de determinar qué datos serán necesarion para esta prueba de entrenamiento se

ejecuta el modelo sobre el mismo eligiendo los parámetros que podrán ser útiles en el futuro para

que de esta manera los parámetros de ejecución produzcan un modelo adecuado.

Como objetivo de la prueba es determinar o predecir qué tipo de transacción se puede

considerar como fraude, los datos requeridos del datasetde datos “Synthetic Financial Datasets

For Fraud Detection” para determinar dichos patrones de fraudes son “step”, “type”, “amount”,

“oldbalanceOrg”, “newbalanceOrig”, “oldbalanceDest”, “newbalanceDest” y “isFraud”.

Evaluación del modelo

Para realizar una correcta evaluación e interpretación del modelo se debe aplicar la

técnica más de una vez. Luego de comparar los datos se realiza un resumen de los resultados

junto con la calidad que haya obtenido y así determinar la credibilidad del modelo elegido de

este modo se puede concluir si la información obtenida es nueva y útil.


Con esta tarea concluye esta fase, centrada propiamente en el modelado de los datos

mediante algoritmos de aprendizaje computacional.

Implementación

En esta fase podemos determinar que la creación de un modelo no necesariamente

significa que sea el final de un proyecto ya que, dependiendo de los requisitos de una

organización, el desarrollo de la solución puede culminar desde un simple reporte o informe

hasta la periodicidad o automatización de un proceso de análisis.

Reunidos todos los datos se procede a explicar al cliente cuál es la mejor forma para

poner en marcha el funcionamiento del proyecto que se ha construido al realizar la integración de

cada fase además de presentar de forma legible o entendible los datos que el modelo arroja con el

fin de crear una estrategia de mantenimiento del proyecto en donde se incluyan posibles mejoras

y/o dificultades que puedan presentarse en un fututo a la hora de realizarlo.

Planifcación de despliegue

Antes de empezar a realizar la planeación y a modo introductorio, según Asobancaria, el

60% de los fraudes bancarios en Colombia son de tipo electrónico, la mayoría de ellos suceden

desde links que se dirigin a páginas ficticias (Infolaft, n.d.).


Para aplicar este modelo, las instuticiones financieras interesadas en la gestión y analítica

avanzada, en la reducción de exposición al riesgo, predicción y anticipación de fraudes

financieros es necesario que se ponga a disposición la base de datos real del comercio para poner

en marcha el modelo, cabe destacar que las bases de datos de las diferentes entidades varían en

su estructura es posile que deban repetir algunas fases con el fin de adaptarse a la entidad

interesada, esto conlleva a que se deba tomar mucho más tiempo del estimado, puesto que la

cantidad de datos indiscutiblemente sobreapasría las gigas de información que poiblemente

contengan ruido requierendo un exhaustivo y prolongado nivel de procesamiento. (Cortina,

2015)

Planificación de control y del mantenimiento

Este proceso debe ser supervisado y controlado debido a que diariamente los usuarios de

las diferentes instituciones financieras realizan miles de transacciones al día es por ello que sería

necesario extraer algunas muestras que sean correctamente clasificadas con el fin de organizar la

información y al ser pasada por el modelo otorgue resultados m´ás satisfactorios.

Cabe destacar que existe una posibilidad de que sujan modelos que requieran de una

mayor complejidad, esto implica directamente a que se deba aumentar la necesidad de control,

dicho control es de tipo automático que según se solicite puede realizar informes programados.

Adicionalmente los pronósticos o detecciones de fraudes de forma instantánea se dee tomar en

cuenta para llevar a cabo infiriendo directamente en la necesidad de un equipo mucho más

sofisticado.
Creación del informa final

En esta etapa es necesario presentar un informe resumido y detallado que contenga los

puntos ás importantes del proyecto resolviendo los cabos sueltos de la documentación previa este

resumen es:

También podría gustarte