Está en la página 1de 12

METODOLOGÍA DS PARA SOLUCIONAR

PROBLEMAS DE NEGOCIO
Data Science
Metodología soportada en 8 puntos de desarrollo…

Reunión con Reunión con el Reunión de feedback Reunión de feedback Reuniones reiteradas Reuniones con líderes
el negocio negocio para hacer la con el negocio con el negocio de feedback con el Negocio / DS para
propuesta negocio presentar resultados

1 2 3 4 5 6 7 8
Mapeo de data, Puntos de Corte e Documentación
Necesidades del Factibilidad de Población Análisis Bivariado Estimación de Impacto en el
Segmentación en el repositorio
Negocio Implementación y objetivo y Target por segmento Modelos Negocio
Propuesta (Backtesting) de Modelos

• Reunión con el • Reunión con el • Visión: cliente/ • Reunión con el • Captura de • Estimación de • Proyectar • Documentar
negocio para equipo de TI producto. negocio para Insights para el varios modelos resultados todo el proceso
recabar para validar la revisar el negocio. considerando esperados con incluyendo
necesidades. información • Reunión con el análisis de la el balance estas nuevas borradores.
disponible. negocio para segmentación. • Bucle con el entre herramientas.
• Llenar el revisar negocio para complejidad/ • Documento
formulario con • Evaluar resultados. revisar las explicabilidad. • Encontrar técnico de
preguntas compra de variables que puntos de desarrollo y
predefinidas. Información. • Revisión de quedarían en el corte óptimos. Documento de
ajustes sobre el modelo. implementació
• Hacer la feedback. n.
propuesta de
solución
1 Necesidades del Negocio

Tareas

• Es la primera reunión con el negocio, donde se deben hacer las consultas para poder entender con claridad la
problemática del negocio y poder plantear luego una propuesta. Las consultas en su mayoría deberían responder a
las consultas del siguiente formulario:

Entregable

• El entregable sobre este punto es el cuestionario lleno, además se deben adjuntar los reportes de negocio que nos
ayuden a entender las dimensiones y estado del negocio.

• Envío de correo con el acta de acuerdos de la reunión a todos los involucrados y propuesta de fecha de reunión para
revisar la propuesta DS de la solución de negocio.
2 Mapeo de data y Propuesta

Tareas

• La principal tarea es hacer el mapeo de todas las fuentes de información que podrían intervenir en el desarrollo de la
solución.

• Debería haber una reunión con TI con el objetivo fundamental de detectar qué fuentes/dominios de datos tenemos
disponibles para consumir de manera gobernada (AWS 8k var/Teradata 28k var) y que fuentes/dominios podemos
consumir que no sean gobernadas (Sandbox/Hadoop/Adobe).

• Dimensionar el tiempo que nos llevará disponibilizar todas las fuentes involucradas (tanto disponibilizar en otros
entornos como actualización de la ya existente) para poder incluir este tiempo en el Gantt de trabajo.

Entregable

• El entregable del mapeo de data es un Excel con todas las fuentes que se van a utilizar, tanto las
disponibles como las que están por migrar o por cualquier otro motivo no están disponibles.

• Para la propuesta con el negocio se debe hacer una presentación de acuerdo a la ppt:
3 Población Objetivo y Target

Población Objetivo Target

• La población objetivo está definida como el grupo de clientes sobre • La variable objetivo corresponde al evento que se va a predecir con
el cual se utilizará la herramienta, por ejemplo: clientes del banco, no las variables explicativas, dependiendo del tipo de problema y en
clientes, empresas en el sistema financiero, etc. conjunto con el negocio se determina la ventana a evaluar, por
ejemplo para el caso de modelos de riesgo suele ser 12 meses,
• Sobre esto es necesario hacer un análisis descriptivo mes a mes para mientras que para modelos de propensión a compra suele ser de 1
poder revisar número de clientes, estabilidad de la población, mes.
descriptivo de la población por características para entender el perfil
de los clientes. • Determinar las categorías : (1) correspondiente al target (0)
correspondiente al no target. Metodológicamente es una buena
• Cabe mencionar que no necesariamente se desarrollan los modelos práctica considerar un grupo de clientes como indeterminados, que
con la población objetivo, pues esta debe sufrir de algunos filtros debería ser una población menor al 5% y debería corresponder al
para poder obtener mejores modelos. grupo de clientes intermedios entre (0) y (1) que no se pueden
determinar con precisión a qué categoría perteneces, esto para que
los modelos aprendan de los extremos.

• Para proponer un target es necesario hacer un trade off entre


capturar el 100% del target y ventana a medir. A veces es suficiente
mirar menos ventana para capturar un alto % del target.
4 Segmentación

Sobre la población objetivo a veces no tenemos una población totalmente homogénea, por tal motivo es necesario en la medida de lo posible
segmentar la población, para esto se proponen 3 criterios:

o Bloques de Información.- Basados en que hay poblaciones que cuentan con información que otro grupo no cuenta, es
necesario diferenciarlos de no ser así el segundo grupo tendría una gran cantidad de variables missing. Ejemplos: Bancarizado/No
bancarizado, cliente/no cliente, etc.

o Diferenciación por target..- Grupos por intensidad de existencia de % de clientes en un segmento más que en otros. Se suele
utilizar un modelo básico que consta del target y pocas variables que por experiencia o modelos pasados son las más importantes o
son propuestos como drivers de segmentación y sobre estas se ejecuta un modelo simple tree y poder determinar cuáles son las
principales variables para segmentar. Finalmente si se quiere ser más riguroso se debería realizar el likelihood ratio test para poder
determinar si existe diferenciación de parámetros entre los segmentos utilizando un toy model.

o Criterio de Negocio.- Propuesto por el negocio y a considerar por la forma en la que va a gestionar, se suele utilizar cuando es
necesario tener modelos separados para poder asegurar su funcionamiento en la gestión.

o Segmentación Comportamental.- Está basado en la diferencia de variables o características que explican el target en cada
uno de los segmentos, sobre los cuales se considerarán modelos distintos. Para este caso se suele trabajar con 2 grupos de variables
en un toy model: variables importantes para el modelo por experiencia o modelos pasados (grupo 1) y variables de drivers de
segmentación propuestos (grupo 2) sobre los cuales se suele ejecutar algún algoritmo de partición recursiva probando todos los
drivers y devolviéndote el driver donde encuentra mayor diferencia de parámetros entre los segmentos.

La segmentación se da con la finalidad de poder ser más exactos al momento de predecir el target de un cliente.
4 Tratamiento de Datos

A. Análsisis Descriptivo: Del target y de las variables explicativas para poder revisar distribuciones y tendencias poblacionales,
tratamiento de valores ausentes. Distinguiendo el análisis para variables continuas y variables categóricas.

• Para variables continuas calculamos media, desviación estándar, percentiles máximo, mínimo. Diferenciación entre cero y valores
null.
• Para variables categóricas revisar distribuciones y en ambos casos revisar porcentajes de valores missing.

B. Análisis Temporal: Se revisará tendencias de las variables y a la vez revisar estabilidad de las variables en el tiempo.

C. Análisis de Coherencias: Analizar la relación entre variables para poder ver si los valores son coherentes entre variables y en sí
mismas.

D. Construcción de variables Calculadas: Construir variables calculadas sobre la ventana de observación: Ratios, Tendencias,
Mínimos, Máximos, Varianzas, etc.
5 Análisis Bivariado

• Consiste en Analizar la relación de cada una de las variables explicativas con el target. Para este caso se usarán los indicadores de IV y GINI.

• IV < 5% (Asoc. Bajo)


• 5%<=IV<25% (Asoc. Medio)
• IV>=25% (Asoc. Alto)

• Gini < 5% (Asoc. Bajo)


• 5%<=Gini<25% (Asoc. Medio)
• Gini>=25% (Asoc. Alto)

• Este análisis se debe hacer con cada una de las variables candidatas y los indicadores nos darán un grado de asociación entre la variable y el target .
Importante para explicar el Modelo e Insights de negocio.
6 Estimación de Modelos

Muestra de Desarrollo y Muestra de Validación

• Para la estimación del Modelo previamente se divide la base en dos muestras aleatorias:

a) Muestra de Desarrollo
b) Muestra de Validación in sample
c) Muestra de Validación out sample

• Con la muestra de desarrollo se estimarán los parámetros/modelo de la población, mientras que con las muestras de validación se verificará si esos
parámetros/modelo también funcionarán sobre una muestra que no entrenó el modelo para dar validez al modelo fuera de la muestra. La partición
suele ser 70%/30% ó 80%/20%.

Estimación del Modelo Evaluación


• Se buscará el mejor modelo considerando las metodologías: • Anális de Multicolinealidad
o Linear Regression /dummy variables. • Medida de Ajuste de Modelos : GINI, KS, AUC, AIC, BIC, EMC, etc.
o Logistic Regression/ GLM Models Sobre Desarrollo y validación para comparar y evaluar estabilidad
o Decision Tree / No parametric Models de los indicadores (modelo).
o Neural Network • Generar la tabla de puntuaciones (tabla de odds) para poder
o XGBoost, LGBM, Boosting, etc. evaluar probabilidades por rango de métrica.
o Forecast (ARIMA, Dynamic Models, Stochastic process
continuos/discrete, Kalman Filtering, Particle Filtering, etc.).
o Optimization Models, etc.
7 Puntos de Corte e Impacto en el Negocio

• De acuerdo a los resultados del Modelos se debe trabajar sobre un estimado del aporte del Modelo en el proceso actual donde interviene y poder
mostrar a priori cómo impactaría el modelo en el negocio.

• Este impacto es a modo de backtesting y dependerá del tipo de modelo priori al piloto.
8 Documento de Desarrollo e Implementación

• Con la finalidad de poder tener trazabilidad del modelo en el tiempo y documentar el know how, es necesario documentar el desarrollo y también
generar un documento técnico de implementación.

• Dependiendo del modelo esto puede ser de forma simple o exhaustiva.


METODOLOGÍA DS PARA SOLUCIONAR
PROBLEMAS DE NEGOCIO
Data Science

También podría gustarte