Está en la página 1de 48

Aplicaciones

Machine Learning de Inteligencia


Artificial en las Industrias
con Python
Inteligencia Artificial e Industria 4.0
Docente

3
Presentación …
¡Hola! Soy,
André Chávez
“Me encanta el fútbol y tengo un hijito de 2 años”

Jefe de Data Science. Estadístico. MSc. Data Science

Me puedes encontrar como:

andre.chavez@urp.edu.pe

[www.linkedin.com/in/andré-chávez-a101010]
Reglas e Itinerario
Reglas
Puntualidad

Mantener silenciado el micrófono durante la sesión

Las preguntas se realizarán por el chat/ en caso sea


necesario se habilita el micrófono

Realizar las actividades encomendadas


Contenido de sesión
AGENDA
➢Aplicaciones de Machine Learning.
➢Conceptos básicos y palabras claves.
➢ ¿ Qué es Machine Learning ?.
➢Desarrollo de algoritmos de Machine Learning en la Industria.
➢Evaluación técnica de algoritmos de Machine Learning.
➢Evaluación de negocio de algoritmos de Machine Learning.
➢Implementación de algoritmos de Machine Learning en la Industria.
➢Proceso metodológico de desarrollo e implementación de algoritmos
de Machine Learning en la Industria.
Google DeepMind -AlphaStar

https://deepmind.com/blog/article/AlphaStar-Grandmaster-level-in-StarCraft-II-using-multi-agent-
reinforcement-learning

15/02/2020 Fundamentos de Aprendizaje de Máquina 9


Casos de uso en Finanzas

https://www.thedigitaltransformationpeople.com/channels/enabling-technologies/machine-learning-
finance/

15/02/2020 Fundamentos de Aprendizaje de Máquina 10


Casos de uso en Retail

https://www.n-ix.com/fresh-look-machine-learning-retail-10-top-applications/

15/02/2020 Fundamentos de Aprendizaje de Máquina 11


NECESITAMOS ENTENDER Y CONOCER ALGUNOS TÉRMINOS BÁSICOS …

❑ Conjunto de Datos (Data Set): El total del conjunto de datos sobre los que queremos
desarrollar un algoritmo de Machine Learning con el fin de obtener un modelo que lo
represente lo mejor posible. Contendrá variables independientes y dependientes.

❑ Variables Independientes (Features), (VI): Aquellas columnas del Data Set que serán
usadas por el algoritmo para generar un modelo que prediga lo mejor posible las
variables dependientes.

❑ Variables dependientes (Labels,Target), (VD): Columna del data set que responde a
una correlación de VI y que debe ser predicha por el futuro modelo

❑ Conjunto de Datos de Entrenamiento (Training Set): Subconjunto del Data Set que
será utilizado para entrenar el modelo que se pretende generar.

❑ Conjunto de Datos de Test (Test Set): Subconjunto del data set que se le pasará al
modelo una vez haya sido entrenado para comprobar, mediante el uso de diferentes
métricas, sus indicadores más importantes de calidad.
NECESITAMOS ENTENDER Y CONOCER ALGUNOS TÉRMINOS BÁSICOS …

13
¿QUÉ ES MACHINE LEARNING?

“Es realmente difícil programar o hacer una tarea manual por lo general
repetitiva pues resulta poco eficiente y tediosa. Tal vez un algoritmo o
sistema pueda entender lo que necesito que haga. Tal vez pueda
enseñarle cómo hacerlo, si tiene la estructura correcta y buenos
ejemplos”.
CUÁLES SON LAS ÁREAS QUE COMPRENDEN EL MACHINE LEARNING …
SUPERVISED LEARNING (MODELOS SUPERVISADOS)

❑ Se tiene una variable


objetivo (Target).

❑ Variables que ayudan a


predecir a la variable de
salida (Features o drivers).

❑ Existe una dependencia


funcional de las variables de
entrada con las variables de
salida.
SUPERVISED LEARNING

❑ Género.

❑ Rangos de Edad.
❑ Si Compra

❑ Ingresos.
❑ No Compra

❑ Estado Civil.
UNSUPERVISED LEARNING (MODELOS NO SUPERVISADOS)

❑ No hay una variable objetivo (Target).


❑ No hay variables que ayudan a predecir a la variable de salida.

❑ Todas las variables tienen


la misma importancia.

❑ Se busca la
interdependencia de las
variables.
MODELOS NO SUPERVISADOS
REINFORCEMENT LEARNING (APRENDIZAJE POR REFUERZO)

❑ El algoritmo de aprendizaje
recibe un tipo de valoración
acerca de la idoneidad de la
respuesta dada.

❑ Cuando la decisión es
correcta es muy parecido al
aprendizaje supervisado, sin
embargo difiere mucho
cuando la decisión es
incorrecta.
DEEP LEARNING (APRENDIZAJE PROFUNDO)

❑ Es un conjunto de algoritmos de Machine Learning que intenta modelar


abstracciones de alto nivel usando arquitecturas compuestas por
redes neuronales, tales como RNN o CNN para resolver problemas
como visión del computador, reconocimiento automático del habla,
reconocimiento del audio y música, etc.
Desarrollo de Algoritmos de Machine Learning en
la Industria
Y CÓMO ES EL PROCESO DE UNA SOLUCIÓN ANALÍTICA BASADA EN
MACHINE LEARNING EN LA INDUSTRIA …
SI BIEN ES CIERTO EXISTEN FRAMEWORKS DE TRABAJO, TODO SE
DEBE ADAPTAR A METODOLOGÍAS AGILE …
Y LO PRINCIPAL ES EL ENTENDIMIENTO DEL PROBLEMA DE LA
NATURALEZA O NEGOCIO Y SU POSIBLE SOLUCIÓN …

1 .¿Que problema quiero solucionar? Variableobjetivo Ejem: Estimar ingresos de personas


o de respuesta(Y) no bancarizados

Clientes Dependientes e Independientes


2 .¿Cuál es la población total de estudio? Población Objetivo

3¿Con qué población analizo o soluciono el Población Desarrollo Clientes Dependientese


problema? Independientes con algún CE

4 .¿Qué indicadores pueden explicar el Covariables(Xs) Ejem: NSE (Reniec), Tipode


problema? automovil (Sunarp)

5.¿Qué técnica estadisticao biológica o Métricao algoritmo Ejem: Arboles de decisión


informática se ajustaal análisis?

Variable
Target

Algoritmo ML PO

Drivers PD
DESPUÉS ENTENDER QUE DEBEMOS REPLICAR O BUSCAR PATRONES
EN EL PASADO PARA EXTRAPOLAR O PREDECIR UN FUTURO…

INFORMACIÓN HISTÓRICA ALMACENADA • “Supuesto Futuro”:Periodo de Predicción oPerformance

Enfoque temporal: Variable de


Donde se define a la variable derespuesta
Covariables
Xi respuesta(Y)
• “Pasado”:Periodo de observación

Donde se calculan a las variablesexplicativas


Pasado SupuestoFuturo
Linea de
tiempo Presente Futuro
PD
Campañas
Comerciales
Enfoquematricial:

Población Variable de
objetivo respuesta(Y)

Métrica
Covariables Xi Var_Target=
f(Var_X1,Var_X2, Var_X3,
Var_X4,Var_X5,Var_X6)
Y NO OLVIDAR QUE PODRÍA EXISTIR ESTACIONALIDAD O
PARTICULARIDADES POR ENDE DEBEMOS TENER COSECHAS O PERIODOS DE
ANÁLISIS …

Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic

1
Test
2

1
Train
2

Información Ocurrencia de la
histórica Target
PODRÍAMOS BUSCAR PARTICIONES DE LA PD PARA SER MAS PRECISOS
O ATACAR UN PROBLEMA MEJOR…
Y DESPUÉS …. EL ESENCIAL TRATAMIENTO O AED DE LOS DATOS …

29
PARA DESPUÉS REALIZAR LA INGENIERÍA DE VARIABLES O FEATURE
ENGINEERING …

30
PARA DESPUÉS REALIZAR LA INGENIERÍA DE VARIABLES O FEATURE
ENGINEERING …

Log(x1)
Y DESPUÉS PASAMOS AL FEATURE SELECTION O SELECCIÓN DE
VARIABLES …
MODELAMIENTO DE INFORMACIÓN O APLICACIÓN DE ALGORITMOS
DE MACHINE LEARNING ...
Desarrollo Modelos Productivo Modelos
ESTADO INGRESOS
REEMBOLSO FRAUDE
ID CIVIL ANUALES
1 SI SOLTERO S/ 1,000 NO Algoritmo de
2 SI CASADO S/ 5,000 NO Aprendizaje
3 NO CASADO S/ 3,500 SI
4 SI VIUDO S/ 4,500 NO
Generar
5 NO SOLTERO S/ 2,000 NO
el
6 NO SOLTERO S/ 1,500 SI Modelo
Tabla de Aprendizaje

ESTADO ING RESO S Modelo


REEMBO LSO FRAUDE
ID CIVIL ANUALES Nuevos
7 SI SOLTERO S/ 4,000 NO Individuos
8 SI CASADO S/ 5,500 NO
9 NO CASADO S/ 6,500 SI
Aplicar
el
10
Tabla de Testing Evaluar Modelo
MODELAMIENTO DE INFORMACIÓN O APLICACIÓN DE ALGORITMOS
DE MACHINE LEARNING ...

Random Forest Light GBM Logistic Regression


EVALUACIÓN TÉCNICA UN ALGORITMO DE
ANALÍTICA PREDICTIVA
Evaluando un
VALIDAMOS TECNICAMENTE Algoritmo
SI LOS de Machine
ALGORITMOS USADOSLearning
SON
ASERTIVOS Y TIENEN BUENOS SCORES DE PRECISION …

MATRIZ DE CONFUSIÓN Y MATRIZ DE COSTOS


PREDICCIÒN
MATRIZ DE CONFUSIÒN
NO MOROSOS MOROSOS

REALIDAD
NO
MOROSOS
DECISIÓN CORRECTA
VN FP
MOROSOS
FN DECISIÓN CORRECTA
VP

PRECISIÓN = (VN + VP) / (VN + VP + FP + FN)

SENSIBILIDAD = VP / (VP + FN)

ESPECIFICIDAD = VN / (VN + FP)

F-SCORE = 2 *( (VP/ VP + FP) * (VP/ VP + FN)) / ((VP/ VP + FP) + (VP/ VP + FN))


LE DAMOS EXPLICABILIDAD E INTERPRETABILIDAD A LOS ALGORITMOS
ENTRENADOS Y VALIDADOS …
LE DAMOS EXPLICABILIDAD E INTERPRETABILIDAD A LOS ALGORITMOS
ENTRENADOS Y VALIDADOS …

● La importancia de variable se ordena


de mayor a menor

● La distribución horizontal explica la


relación que tiene el valor de la
variable con el target

● Los colores indican el nivel de una


variable
○ ROJO: valores altos
○ AZUL: valores bajos

● Si una variable tiene valores rojos en


los SHAP values mayores a 0
(CERO) indica correlación positiva

● Si una variable tiene valores azules


en los SAHP values mayores a 0
(CERO) indica correlación negativa

38
EVALUACIÓN DE NEGOCIO DE UN ALGORITMO
DE ANALÍTICA PREDICTIVA
VALIDAMOS DE ACUERDO A METRICAS O KPI’S DE NEGOCIO PARA
GENERAR CONFIANZA Y ALIADOS DE LA SOLUCION …

TABLA DE RESPUESTA - GANANCIAS


VALIDAMOS DE ACUERDO A METRICAS O KPI’S DE NEGOCIO PARA
GENERAR CONFIANZA Y ALIADOS DE LA SOLUCION …
Implementación de Algoritmos de Machine
Learning en la Industria
IMPLEMENTAMOS EL ALGORITMO O LA SOLUCIÓN ANALÍTICA EN
CAMPAÑAS O ACCIONES COMERCIALES …

% Sucesos
Probabilidad N° Clientes N° Sucesos VD VD/ N°
Clientes Recomendad
0,9 10 000 100 36% o
0,8 10 000 60 22%
0,7 10 000 40 14%
0,6 10 000 33 12%
0,5 10 000 20 7% Medio
0,4 10 000 10 4%
0,3 10 000 5 2%
0,2 10 000 5 2%
0,1 10 000 3 1% Bajo
0 10 000 3 1%
Total 100 000 279 100%

GRUPOS DE % SUCESOS
N° CLIENTES EFECTIVIDAD LIFT
EJECUCIÓN ACUMULADOS

RECOMENDADO 30 000 200 0,67% 2,39


MEDIO 30 000 63 0,21% 0,75
BAJO 40 000 16 0,04% 0,14
TOTAL 100 000 279 0,28%
DEFINIMOS Y DISEÑAMOS UN EXPERIMENTO ENTENDIENDO SI
EXISTE YA UNA SOLUCIÓN ANALÍTICA FUNCIONANDO O ES ALGO
NUEVO QUE PRETENDEMOS IMPLEMENTAR …

20% de
Efectividad en
la Cartera
Clientes con Gestión del
Modelo de Adquisición

12% de
Efectividad en
la Cartera

Clientes sin Gestión del


Modelo de Adquisición
IMPLEMENTAMOS EL ALGORITMO O LA SOLUCIÓN ANALÍTICA, EN LA
INFRAESTRUCTURA CONVENIENTE …

Infraestructura Infraestructura Infraestructura


On Premise Híbrida Cloud
45
METODOLOGÍA DE DESARROLLO DE ALGORITMOS DE MACHINE
LEARNING EN LA INDUSTRIA …

❑ Entendimiento del problema de la naturaleza a resolver con datos. Búsqueda de


stakeholders o sponsors.
❑ Análisis exploratorio de datos:

✓ Completitud de los datos / Imputación de valores perdidos.


✓ Detección de outliers.
✓ Transformaciones.
✓ Recodificaciones.

❑ Balanceo de datos.
❑ Selección de variables. (Met. Estadísticas vs ML).
❑ Modelamiento y entendimiento de drivers o factores que influyen en la solución.
❑ Validación técnica. Validación negocio.
❑ Implementación.
REFERENCIAS

❑ Hands-On Machine Learning with Scikit-Learn and TensorFlow 2nd


Edition (2019)
❑ Aprendizaje automático – Standford (Coursera) [Link]
❑ Scikit-Learn [Link]
❑ Crisp-DM Methodology [Link]
❑ SEMMA [Link]
❑ KDD Process [Link]
Gracias!

También podría gustarte