Machine Learning Python

Aplicaciones
Machine Learning de Inteligencia

Artificial en las Industrias
con Python
Inteligencia Artificial e Industria 4.0
Docente
3
Presentación …
¡Hola! Soy,
André Chávez
“Me encanta el fútbol y tengo un hijito de 2 años”
Jefe de Data Science. Estadístico. MSc. Data Science
Me puedes encontrar como:
andre.chavez@urp.edu.pe
[www.linkedin.com/in/andré-chávez-a101010]
Reglas e Itinerario
Reglas
Puntualidad
Mantener silenciado el micrófono durante la sesión
Las preguntas se realizarán por el chat/ en caso sea

necesario se habilita el micrófono
Realizar las actividades encomendadas

Contenido de sesión
AGENDA
➢Aplicaciones de Machine Learning.
➢Conceptos básicos y palabras claves.
➢ ¿ Qué es Machine Learning ?.
➢Desarrollo de algoritmos de Machine Learning en la Industria.
➢Evaluación técnica de algoritmos de Machine Learning.
➢Evaluación de negocio de algoritmos de Machine Learning.
➢Implementación de algoritmos de Machine Learning en la Industria.
➢Proceso metodológico de desarrollo e implementación de algoritmos
de Machine Learning en la Industria.
Google DeepMind -AlphaStar
https://deepmind.com/blog/article/AlphaStar-Grandmaster-level-in-StarCraft-II-using-multi-agent-
reinforcement-learning
15/02/2020 Fundamentos de Aprendizaje de Máquina 9

Casos de uso en Finanzas
https://www.thedigitaltransformationpeople.com/channels/enabling-technologies/machine-learning-
finance/

Casos de uso en Retail
https://www.n-ix.com/fresh-look-machine-learning-retail-10-top-applications/

NECESITAMOS ENTENDER Y CONOCER ALGUNOS TÉRMINOS BÁSICOS …
❑ Conjunto de Datos (Data Set): El total del conjunto de datos sobre los que queremos
desarrollar un algoritmo de Machine Learning con el fin de obtener un modelo que lo
represente lo mejor posible. Contendrá variables independientes y dependientes.
❑ Variables Independientes (Features), (VI): Aquellas columnas del Data Set que serán
usadas por el algoritmo para generar un modelo que prediga lo mejor posible las
variables dependientes.
❑ Variables dependientes (Labels,Target), (VD): Columna del data set que responde a
una correlación de VI y que debe ser predicha por el futuro modelo
❑ Conjunto de Datos de Entrenamiento (Training Set): Subconjunto del Data Set que
será utilizado para entrenar el modelo que se pretende generar.
❑ Conjunto de Datos de Test (Test Set): Subconjunto del data set que se le pasará al
modelo una vez haya sido entrenado para comprobar, mediante el uso de diferentes
métricas, sus indicadores más importantes de calidad.
NECESITAMOS ENTENDER Y CONOCER ALGUNOS TÉRMINOS BÁSICOS …
13
¿QUÉ ES MACHINE LEARNING?
“Es realmente difícil programar o hacer una tarea manual por lo general
repetitiva pues resulta poco eficiente y tediosa. Tal vez un algoritmo o
sistema pueda entender lo que necesito que haga. Tal vez pueda
enseñarle cómo hacerlo, si tiene la estructura correcta y buenos
ejemplos”.
CUÁLES SON LAS ÁREAS QUE COMPRENDEN EL MACHINE LEARNING …
SUPERVISED LEARNING (MODELOS SUPERVISADOS)
❑ Se tiene una variable

objetivo (Target).
❑ Variables que ayudan a

predecir a la variable de
salida (Features o drivers).
❑ Existe una dependencia

funcional de las variables de
entrada con las variables de
salida.
SUPERVISED LEARNING
❑ Género.
❑ Rangos de Edad.
❑ Si Compra
❑ Ingresos.
❑ No Compra
❑ Estado Civil.
UNSUPERVISED LEARNING (MODELOS NO SUPERVISADOS)
❑ No hay una variable objetivo (Target).

❑ No hay variables que ayudan a predecir a la variable de salida.
❑ Todas las variables tienen

la misma importancia.
❑ Se busca la
interdependencia de las
variables.
MODELOS NO SUPERVISADOS
REINFORCEMENT LEARNING (APRENDIZAJE POR REFUERZO)
❑ El algoritmo de aprendizaje
recibe un tipo de valoración
acerca de la idoneidad de la
respuesta dada.
❑ Cuando la decisión es
correcta es muy parecido al
aprendizaje supervisado, sin
embargo difiere mucho
cuando la decisión es
incorrecta.
DEEP LEARNING (APRENDIZAJE PROFUNDO)
❑ Es un conjunto de algoritmos de Machine Learning que intenta modelar

abstracciones de alto nivel usando arquitecturas compuestas por
redes neuronales, tales como RNN o CNN para resolver problemas
como visión del computador, reconocimiento automático del habla,
reconocimiento del audio y música, etc.
Desarrollo de Algoritmos de Machine Learning en
la Industria
Y CÓMO ES EL PROCESO DE UNA SOLUCIÓN ANALÍTICA BASADA EN
MACHINE LEARNING EN LA INDUSTRIA …
SI BIEN ES CIERTO EXISTEN FRAMEWORKS DE TRABAJO, TODO SE
DEBE ADAPTAR A METODOLOGÍAS AGILE …
Y LO PRINCIPAL ES EL ENTENDIMIENTO DEL PROBLEMA DE LA
NATURALEZA O NEGOCIO Y SU POSIBLE SOLUCIÓN …
1 .¿Que problema quiero solucionar? Variableobjetivo Ejem: Estimar ingresos de personas

o de respuesta(Y) no bancarizados
Clientes Dependientes e Independientes

2 .¿Cuál es la población total de estudio? Población Objetivo
3¿Con qué población analizo o soluciono el Población Desarrollo Clientes Dependientese

problema? Independientes con algún CE
4 .¿Qué indicadores pueden explicar el Covariables(Xs) Ejem: NSE (Reniec), Tipode

problema? automovil (Sunarp)
5.¿Qué técnica estadisticao biológica o Métricao algoritmo Ejem: Arboles de decisión

informática se ajustaal análisis?
Variable
Target
Algoritmo ML PO
Drivers PD
DESPUÉS ENTENDER QUE DEBEMOS REPLICAR O BUSCAR PATRONES
EN EL PASADO PARA EXTRAPOLAR O PREDECIR UN FUTURO…
INFORMACIÓN HISTÓRICA ALMACENADA • “Supuesto Futuro”:Periodo de Predicción oPerformance
Enfoque temporal: Variable de

Donde se define a la variable derespuesta
Covariables
Xi respuesta(Y)
• “Pasado”:Periodo de observación
Donde se calculan a las variablesexplicativas

Pasado SupuestoFuturo
Linea de
tiempo Presente Futuro
PD
Campañas
Comerciales
Enfoquematricial:
Población Variable de
objetivo respuesta(Y)
Métrica
Covariables Xi Var_Target=
f(Var_X1,Var_X2, Var_X3,
Var_X4,Var_X5,Var_X6)
Y NO OLVIDAR QUE PODRÍA EXISTIR ESTACIONALIDAD O
PARTICULARIDADES POR ENDE DEBEMOS TENER COSECHAS O PERIODOS DE
ANÁLISIS …
Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic
1
Test
2
1
Train
2
Información Ocurrencia de la
histórica Target
PODRÍAMOS BUSCAR PARTICIONES DE LA PD PARA SER MAS PRECISOS
O ATACAR UN PROBLEMA MEJOR…
Y DESPUÉS …. EL ESENCIAL TRATAMIENTO O AED DE LOS DATOS …
29
PARA DESPUÉS REALIZAR LA INGENIERÍA DE VARIABLES O FEATURE
ENGINEERING …
30
PARA DESPUÉS REALIZAR LA INGENIERÍA DE VARIABLES O FEATURE
ENGINEERING …
Log(x1)
Y DESPUÉS PASAMOS AL FEATURE SELECTION O SELECCIÓN DE
VARIABLES …
MODELAMIENTO DE INFORMACIÓN O APLICACIÓN DE ALGORITMOS
DE MACHINE LEARNING ...
Desarrollo Modelos Productivo Modelos
ESTADO INGRESOS
REEMBOLSO FRAUDE
ID CIVIL ANUALES
1 SI SOLTERO S/ 1,000 NO Algoritmo de
2 SI CASADO S/ 5,000 NO Aprendizaje
3 NO CASADO S/ 3,500 SI
4 SI VIUDO S/ 4,500 NO
Generar
5 NO SOLTERO S/ 2,000 NO
el
6 NO SOLTERO S/ 1,500 SI Modelo
Tabla de Aprendizaje
ESTADO ING RESO S Modelo

REEMBO LSO FRAUDE
ID CIVIL ANUALES Nuevos
7 SI SOLTERO S/ 4,000 NO Individuos
8 SI CASADO S/ 5,500 NO
9 NO CASADO S/ 6,500 SI
Aplicar
el
10
Tabla de Testing Evaluar Modelo
MODELAMIENTO DE INFORMACIÓN O APLICACIÓN DE ALGORITMOS
DE MACHINE LEARNING ...
Random Forest Light GBM Logistic Regression

EVALUACIÓN TÉCNICA UN ALGORITMO DE
ANALÍTICA PREDICTIVA
Evaluando un
VALIDAMOS TECNICAMENTE Algoritmo
SI LOS de Machine
ALGORITMOS USADOSLearning
SON
ASERTIVOS Y TIENEN BUENOS SCORES DE PRECISION …
MATRIZ DE CONFUSIÓN Y MATRIZ DE COSTOS

PREDICCIÒN
MATRIZ DE CONFUSIÒN
NO MOROSOS MOROSOS
REALIDAD
NO
MOROSOS
DECISIÓN CORRECTA
VN FP
MOROSOS
FN DECISIÓN CORRECTA
VP
PRECISIÓN = (VN + VP) / (VN + VP + FP + FN)
SENSIBILIDAD = VP / (VP + FN)
ESPECIFICIDAD = VN / (VN + FP)
F-SCORE = 2 *( (VP/ VP + FP) * (VP/ VP + FN)) / ((VP/ VP + FP) + (VP/ VP + FN))

LE DAMOS EXPLICABILIDAD E INTERPRETABILIDAD A LOS ALGORITMOS
ENTRENADOS Y VALIDADOS …
LE DAMOS EXPLICABILIDAD E INTERPRETABILIDAD A LOS ALGORITMOS
ENTRENADOS Y VALIDADOS …
● La importancia de variable se ordena

de mayor a menor
● La distribución horizontal explica la

relación que tiene el valor de la
variable con el target
● Los colores indican el nivel de una

variable
○ ROJO: valores altos
○ AZUL: valores bajos
● Si una variable tiene valores rojos en

los SHAP values mayores a 0
(CERO) indica correlación positiva
● Si una variable tiene valores azules

en los SAHP values mayores a 0
(CERO) indica correlación negativa
38
EVALUACIÓN DE NEGOCIO DE UN ALGORITMO
DE ANALÍTICA PREDICTIVA
VALIDAMOS DE ACUERDO A METRICAS O KPI’S DE NEGOCIO PARA
GENERAR CONFIANZA Y ALIADOS DE LA SOLUCION …
TABLA DE RESPUESTA - GANANCIAS

VALIDAMOS DE ACUERDO A METRICAS O KPI’S DE NEGOCIO PARA
GENERAR CONFIANZA Y ALIADOS DE LA SOLUCION …
Implementación de Algoritmos de Machine
Learning en la Industria
IMPLEMENTAMOS EL ALGORITMO O LA SOLUCIÓN ANALÍTICA EN
CAMPAÑAS O ACCIONES COMERCIALES …
% Sucesos
Probabilidad N° Clientes N° Sucesos VD VD/ N°
Clientes Recomendad
0,9 10 000 100 36% o
0,8 10 000 60 22%
0,7 10 000 40 14%
0,6 10 000 33 12%
0,5 10 000 20 7% Medio
0,4 10 000 10 4%
0,3 10 000 5 2%
0,2 10 000 5 2%
0,1 10 000 3 1% Bajo
0 10 000 3 1%
Total 100 000 279 100%
GRUPOS DE % SUCESOS
N° CLIENTES EFECTIVIDAD LIFT
EJECUCIÓN ACUMULADOS
RECOMENDADO 30 000 200 0,67% 2,39

MEDIO 30 000 63 0,21% 0,75
BAJO 40 000 16 0,04% 0,14
TOTAL 100 000 279 0,28%
DEFINIMOS Y DISEÑAMOS UN EXPERIMENTO ENTENDIENDO SI
EXISTE YA UNA SOLUCIÓN ANALÍTICA FUNCIONANDO O ES ALGO
NUEVO QUE PRETENDEMOS IMPLEMENTAR …
20% de
Efectividad en
la Cartera
Clientes con Gestión del
Modelo de Adquisición
12% de
Efectividad en
la Cartera
Clientes sin Gestión del

Modelo de Adquisición
IMPLEMENTAMOS EL ALGORITMO O LA SOLUCIÓN ANALÍTICA, EN LA
INFRAESTRUCTURA CONVENIENTE …
Infraestructura Infraestructura Infraestructura

On Premise Híbrida Cloud
45
METODOLOGÍA DE DESARROLLO DE ALGORITMOS DE MACHINE
LEARNING EN LA INDUSTRIA …
❑ Entendimiento del problema de la naturaleza a resolver con datos. Búsqueda de

stakeholders o sponsors.
❑ Análisis exploratorio de datos:
✓ Completitud de los datos / Imputación de valores perdidos.

✓ Detección de outliers.
✓ Transformaciones.
✓ Recodificaciones.
❑ Balanceo de datos.
❑ Selección de variables. (Met. Estadísticas vs ML).
❑ Modelamiento y entendimiento de drivers o factores que influyen en la solución.
❑ Validación técnica. Validación negocio.
❑ Implementación.
REFERENCIAS
❑ Hands-On Machine Learning with Scikit-Learn and TensorFlow 2nd

Edition (2019)
❑ Aprendizaje automático – Standford (Coursera) [Link]
❑ Scikit-Learn [Link]
❑ Crisp-DM Methodology [Link]
❑ SEMMA [Link]
❑ KDD Process [Link]
Gracias!

Machine Learning Python

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Machine Learning Python

Cargado por

Copyright:

Formatos disponibles

Aplicaciones

Machine Learning de Inteligencia

Jefe de Data Science. Estadístico. MSc. Data Science

Me puedes encontrar como:

Mantener silenciado el micrófono durante la sesión

Las preguntas se realizarán por el chat/ en caso sea

Realizar las actividades encomendadas

15/02/2020 Fundamentos de Aprendizaje de Máquina 9

15/02/2020 Fundamentos de Aprendizaje de Máquina 10

15/02/2020 Fundamentos de Aprendizaje de Máquina 11

❑ Se tiene una variable

❑ Variables que ayudan a

❑ Existe una dependencia

❑ No hay una variable objetivo (Target).

❑ Todas las variables tienen

❑ Es un conjunto de algoritmos de Machine Learning que intenta modelar

1 .¿Que problema quiero solucionar? Variableobjetivo Ejem: Estimar ingresos de personas

Clientes Dependientes e Independientes

3¿Con qué población analizo o soluciono el Población Desarrollo Clientes Dependientese

4 .¿Qué indicadores pueden explicar el Covariables(Xs) Ejem: NSE (Reniec), Tipode

5.¿Qué técnica estadisticao biológica o Métricao algoritmo Ejem: Arboles de decisión

INFORMACIÓN HISTÓRICA ALMACENADA • “Supuesto Futuro”:Periodo de Predicción oPerformance

Enfoque temporal: Variable de

Donde se calculan a las variablesexplicativas

ESTADO ING RESO S Modelo

Random Forest Light GBM Logistic Regression

MATRIZ DE CONFUSIÓN Y MATRIZ DE COSTOS

PRECISIÓN = (VN + VP) / (VN + VP + FP + FN)

SENSIBILIDAD = VP / (VP + FN)

ESPECIFICIDAD = VN / (VN + FP)

F-SCORE = 2 *( (VP/ VP + FP) * (VP/ VP + FN)) / ((VP/ VP + FP) + (VP/ VP + FN))

● La importancia de variable se ordena

● La distribución horizontal explica la

● Los colores indican el nivel de una

● Si una variable tiene valores rojos en

● Si una variable tiene valores azules

TABLA DE RESPUESTA - GANANCIAS

RECOMENDADO 30 000 200 0,67% 2,39

Clientes sin Gestión del

Infraestructura Infraestructura Infraestructura

❑ Entendimiento del problema de la naturaleza a resolver con datos. Búsqueda de

✓ Completitud de los datos / Imputación de valores perdidos.

❑ Hands-On Machine Learning with Scikit-Learn and TensorFlow 2nd

También podría gustarte

F-SCORE = 2 ( (VP/ VP + FP) (VP/ VP + FN)) / ((VP/ VP + FP) + (VP/ VP + FN))