Está en la página 1de 26

Iniciando con

Machine Learning

MSC & MBA Manuel Valdivia Carbajal


Agenda
Fundamentos de Machine
Learning

Explorando los Datos con

R Balanceo de Datos

Aprendizaje Supervisado

Aprendizaje no

Supervisado Evaluación

de Modelos
Cubriendo el espectro Analytics
Descriptivo Diagnóstico Predictivo Prescriptivo
Que pasó? ¿Por qué ocurrió? Lo que sucederá? Qué debería hacer?

Self-Service y Modelado de datos, ETL, Advanced Analytics


Exploración con BI Data Almacenamiento,
Tradicional Marts y cubos de datos
Información del Trabajador Profesionales de TI Los científicos dedatos
Proceso Business Intelligence
Entrega de Información

Excel

Sistemas Fuente Preparación de Almacenamiento Servicios Análisis


datos de datos (Minería de Datos)

BD

Portal
Monitoreo y Análisis

Servicios Bodega de Datos Clasificación


Integración
Segmentación
(ETL, Limpieza
Datos) Pronósticos
Dispositivos
Reconocimiento
de patrones
¿Qué es la Machine
Learning?
Sistemas de computación que se
vuelven más
inteligentes con la experiencia.

“El proceso de descubrir


correlaciones, patrones y
tendencias significativamente
nuevas, dentro de grandes
repositorios de datos, usando
tecnologías de reconocimiento de
patrones así como técnicas
estadísticas y matemáticas.”
Gartner Group
IA, Machine Learning, Deep
Learning

HOY: Inteligencia
Artificial
• Deep learning
• Machine intelligence
• Lenguaje Natural y
procesamiento del habla
• Visión y
reconocimiento
computacional
• Agentes autónomos , robótica
• Natural UI, tecnologías de
“What’s the Difference Between Artificial Intelligence, Machine Learning, and Deep Learning?”, Michael Copeland,2016 inmersión
Inteligencia
Artificial
Visión

Aprendizaje profundo Habla

Aprendizaje automático
Conjunto de tecnologías que
Lenguaje
permiten Inteligencia de
Redes neuronales
máquina que simula los Conocimiento

Búsquedas elementos del pensamiento Resolución de


Razonamiento
probabilístico
humano problemas

etc.
etc.
Inteligencia Artificial & MachineLearning

1950 1979 1994 1997 2016 2016 2017

Alan Turing Un Un ordenador Deep Blue 2016. Un Microsoft OpenAI


publica ordenador vence vs. Garri ordenador lanza derrota a los
“Compu ting vence al al campeón Kaspárov derrota por Tay mejores
Machinery campeón de (IBM) primera vez a jugadores en
and de damas un campeón el juego Dota
Intelligence” backgammon de Go 2

Fuente: https://www.cice.es/noticia/historia-evolucion-la-inteligencia-artificial/
Metodologías
• KDD (1996)
• Knowledge Discovery in
Databases

• CRISP-DM (2000)
• CRoss Industry Standard
Process
for Data Mining

• TDSP
• Team Data Science
Process
CRISP-DM

Entendimiento Entendimiento Preparación de


Modelamiento Evaluación Despliegue
del negocio de los datos datos

Identificar Recolectar y Seleccionar y Generar modelos Evaluar los Aplicar resultados al


objetivos analizar datos limpiar datos analíticos modelos negocio
TDSP
Proceso de Data Science

Pregunta de Ingeniería de Modelamiento Comunicación


Negocio datos de resultados

Adquisición Entendimiento Transformación


Entendimiento del Negocio:
entendimiento del problema
Tipos de problema a solucionar
Segmentación Modelos de Segmentación:¿Están Retención Modelo Churn: ¿Quiénes son mis
mis productos alineados a las clientes
necesidades de los clientes? más propensos a irse?
Recomendación Sistemas de Recomendación Detección de Fraude

Modelo Análisis Sentimiento: Modelo Score Riesgos: ¿Cómo puede


Branding mejorar la previsión financiera y la
¿Cómo se puede actuar sobre la
gran cantidad de comentarios. demanda para el rendimiento de mi
negocio?
Modelo Benchmarking Social Modelo Propensión a la Compra
Benchmarking Media: Porque mi competencia Crecimiento
Si lanzo un nuevo producto, ¿tendrá
tiene mejores resultados aceptación?

Modelo Pronóstico Demanda: ¿Qué


medidas son necesarias para cumplir
con las metas de ventas y
producción?

Modelo Cross/Up selling: Cómo se


puede sacar provecho de
aumentar las ventas y
oportunidades de venta cruzada?
Entendimiento
de los datos
• Estructura de los
datos
• Estructurados
• No Estructurados

• Exploración de datos
• Estadística descriptiva
• Exploración visual
Transformación
de los datos
• Transformaciones
• Conversión de datos
• Estandarización de datos
• Balanceo de datos
• Imputación de variables
• Transformación de variables
• Selección de variables
• Reducción de dimensiones
• Limpieza
• Corregir valores inválidos
• Datos duplicados
Modelamiento
• Predicción • Identificar clúster
• Conozco las de datos.
respuestas.
• No conozco
• Entreno el modelo con las
las respuestas respuestas
conocidas
• Encontrar el valor de
• Verifico los resultados los datos.
del modelo con las
• Obtener clúster
respuestas conocidas
de datos del
• Publico el modelo para modelo.
predecir nuevos datos

Supervisado No
Supervisado
Técnicas

• Técnicas de modelamiento
• Clasificación
• Regresión
• Clustering
• Detección de anomalías
Entrenar

Predecir
¿Qué no es Machine
Learning?
Sólo un Software más.
Proceso de fuerza bruta sobre
los
datos crudos.
Aplicación “ciega” de
algoritmos
para análisis/modelaje.
Encontrar relaciones en donde
no existen.
Magia.
Buscar patrones a la ciega
El sustituto del personal
adecuado
con el conocimiento de
negocio
Irrelevantes
Errores en Machine Precio entrada
al cine
# equipos
de fútbol
% contaminación

Learning 4.00 4 84.0

3.50 2 1.7

Error 1: Utilizar datos 4.00 1 0.2


Irrelevantes
4.50 3 11.7
• Tengo que utilizar TODOS los datos
disponibles Relevantes
• Respuesta:
• Usar sólo los datos relevantes para Automotores Ton/año % contaminación

el problema de negocio. 4449 9270.6 84.0


• Relevancia tanto en el tiempo como
en la pertinencia de los datos. 511 187.4 1.7

396 18.4 0.2

164 1286.6 11.7


suficiente
Error 2: Falta de
conocimiento de negocio

•Tengo unos “datitos”... ¿No será que se


los puedo llevar, aplicarle ML, y traerme
sus resultados?
• Respuesta:
• El conocimiento general de la Insuficiente
industria, o
de los modelos, no es suficiente.
• El proceso de ML exige el
conocimiento
detallado del problema de negocio
para que los resultados sean útiles
Error 3: Falta de
conocimiento de datos No Precisos

•Fechas, campos con información


diferente, falta de documentación o
desconocimiento del proceso de
almacenamiento
•“El 30% de nuestros clientes tienen más
de 100 años”
• Respuesta: Precisos
•Se requiere la participación de un
experto en las fuentes de datos,
claridad en la documentación y cuidado
cuando se realicen los supuestos.
Error 4: Desorganización en CRISP-DM
el proceso
• “Primero apliquemos los
algoritmos luego veremos qué
hacemos con los resultados”.
• Respuesta:
• El seguimiento de un
procedimiento, una adecuada
metodología le ahorra muchos
dolores de cabeza
Error 5: Modelaje sobre
datos inexistentes (en el futuro)

• ¿Qué datos estarán


disponibles en el momento
de usar los modelos?
• Respuesta:
• No basta con pensar con qué
datos se cuenta
• Se requiere pensar con qué
datos se contará

También podría gustarte