Documentos de Académico
Documentos de Profesional
Documentos de Cultura
COMPUTACIÓN EVOLUTIVA
(ING01216)
Marzo 2021
Fundamentos del
aprendizaje de máquina
Agenda
• Introducción. Conceptos básicos: Minería de datos, Ciencia de datos, aprendizaje de
máquina, analítica. ¿Cómo puede aprender una máquina?
• Posibles fuentes de datos
• Disciplinas de la ciencia de datos.
• Tipos de científicos de datos.
• Tabla periódica del científico de datos.
• Escenarios de aplicación de la ciencia de datos.
• Proceso Aprendizaje de máquina. Metodología CRISP-DM.
• Tipos de Aprendizaje de Máquina (Aprendizaje supervisado y No supervisado).
• Introducción a Regresión, Clasificación y Clustering.
• Proceso de aprendizaje supervisado: Entrenamiento y Pruebas
Conceptos básicos
Minería de datos Aprendizaje
Proceso de descubrir de máquina
patrones en los datos
Campo de estudio que
proporciona a los computadores
la capacidad de aprender sin
Ciencia haber sido explícitamente
de datos programados.
Integra varias disciplinas e
incluye aprendizaje de
máquina y minería de
datos para convertir datos
en valor para los negocios.
Conceptos básicos
v i d e o ?
a s d e l
e c u e r d e n t re
¿Qué r l a ció n
s la r e e
uá l e r n i n g
¿C i n e L e a
l ?
M a c h rt i f i c ia
n c ia A
t el ig e
In
Conceptos básicos
Relación entre Machine Learning e Inteligencia Artificial
Fuente: Oracle
Conceptos básicos
Analítica – Tipos de Analítica
Ciencia de Datos
Analítica Avanzada
Identifica estrategias
y acciones que
A partir de lo mejoren los
sucedido resultados previstos.
A partir de lo
predice lo que
Analiza e sucedido explica
sucederá -> ¿Qué hacer?
interpreta lo porqué está
-> ¿Cómo hacerlo?
que ha ocurriendo algo -> ¿Qué podría
sucedido pasar?
-> ¿Qué pasó? -> ¿Por qué pasó?
-> ¿Cómo pasó?
Fuente: Infórmese
¿Cómo puede aprender una máquina?
• ¡Usando datos!
• Antes, se debían programar explícitamente las reglas.
• El aprendizaje de máquina o aprendizaje automático tiene el objetivo de "aprender
de los datos" con el fin de extraer conocimiento.
Posibles fuentes de datos
Posibles fuentes de datos
Fuente: https://www.informationmanagementtoday.com/trends/
Tipos de Datos
Tipos de Datos
Estructurados
Estructurados
• Cuentan con un modelo de datos o esquema
• Son almacenados en forma tabular
• Generalmente están almacenados en bases de datos relacionales.
• Normalmente son generados por las aplicaciones empresariales.
• Los datos estructurados generalmente no tienen requerimientos especiales
de pre-procesamiento o de almacenamiento.
Tipos de Datos
Semi-estructurados
Semi-estructurados
• Tienen un nivel definido de estructura y
consistencia pero no son relacionales por naturaleza.
• Generalmente existen en formatos textuales tales como archivos XML o JSON
• Pueden ser procesados más fácilmente que los datos no estructurados.
• Algunos ejemplos comunes de fuentes de datos semi-estructurados son:
• EDI (Electronic Data Interchange)
• E-mails
• Hojas de cálculo
• XML, HTML
Tipos de Datos
No estructurados
No estructurados
• No tienen un modelo o esquema de datos
• Son generalmente no relacionales
• Existen en forma textual o binaria.
• Algunos ejemplos son: Imágenes, audio, video, posts redes sociales.
• Al contrario de los datos estructurados, los datos no estructurados
generalmente necesitan lógica especial para pre-procesarlos.
• Usualmente requieren el uso de bases de datos no relacionales, tales como
bases de datos NoSQL.
Tipos de Datos
Según fuentes y formatos
Disciplinas de la ciencia de datos
La ciencia de datos requiere la combinación de disciplinas diferentes:
Tabla periódica de la Ciencia de Datos
Fuente: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Data-Science-Periodic-Table.pdf
Tabla periódica de la Ciencia de Datos
Cursos, bootcamps y conferencias
Tabla periódica de la Ciencia de Datos
Lenguajes de programación y distribuciones. Búsqueda y administración de datos
Tabla periódica de la Ciencia de Datos
Frameworks de Aprendizaje de máquina y Herramientas de Visualización
Tabla periódica de la Ciencia de Datos
IDEs y herramientas colaborativas
Tabla periódica de la Ciencia de Datos
Fuentes de datos y retos
Tabla periódica de la Ciencia de Datos
Comunidad
Tabla periódica de la Ciencia de Datos
Newsletters y podcasts
Escenarios de aplicación de ciencia de datos y aprendizaje de
máquina
✔ Detección y prevención de fraudes
✔ Optimización de campañas de mercadeo
✔ Segmentación de clientes
✔ Mantenimiento predictivo
✔ Previsión de la demanda de energía
✔ Optimización de costos
✔ Diagnóstico de enfermedades
✔ Análisis de tendencias de crímenes
✔ Exploración espacial
✔ Otros… En todos los sectores!
Naturaleza del aprendizaje de máquina
• El aprendizaje de máquina aplica un proceso iterativo.
• Es de carácter experimental.
• Constituye un desafío adaptativo.
• En los proyectos de ciencia de datos y aprendizaje de máquina pueden usarse
metodologías ágiles (Ej. SCRUM), design thinking y lean-startup.
Naturaleza del aprendizaje de máquina
Metodologías existentes para la Innovación Digital
Fuente: Gartner
Proceso Aprendizaje
Metodología CRISP-DM
de máquina
Determinar los objetivos del negocio
Comprende Definir el problema
r el
Negocio
Recolectar datos
Planear despliegue Comprender Describir datos
Hacer despliegue Desplegar Explorar datos
los datos
Verificar calidad de datos
Fuente: http://www.oralytics.com/2013/03/type-i-and-type-ii-data-scientists.html
Ciudadano Científico de Datos (Citizen Data Scientist)
Fuente: https://www.forbes.com/sites/stevebanker/2018/01/19/the-citizen-data-scientist/#3af847cf2702
Elementos de una solución Analítica
Capacidad Intelectual
Conocimiento
de Negocio
Modelamiento
matemático y
estadístico
Sistema de
Analítica
Predictiva
Capacidad Tecnológica
Plataforma de
Análisis
Predictivo
Herramienta de
Visualización
de datos
Técnicas de Análisis de Datos Análisis Estadístico
•AB Testing
•Correlación
Análisis Visual
•Mapas de calor
•Series de tiempo
•Análisis de redes
•Análisis de datos espaciales
Aprendizaje de Máquina
•Regresión
•Clasificación
•Clustering (Agrupamiento)
•Detección de datos atípicos
•Filtrado
Análisis Semántico
•Procesamiento de Lenguaje Natural (NLP)
•Analítica de Texto/Minería de Texto
•Análisis de sentimientos
Clasificación de los algoritmos de aprendizaje
Según el tipo de aprendizaje y la categoría del problema
de máquina
Aprendizaje Supervisado
• Recibe un conjunto de datos de entrada con sus correspondientes salidas y aprende
de estos ejemplos para luego hacer predicciones sobre la salida para entradas no
vistas antes.
Registros o muestra
Variables Etiquetas
Aprendizaje No Supervisado
• Usa datos que no tienen etiquetas asociadas. Su objetivo es encontrar patrones en
los datos y organizarlos en una forma significativa.
Registros o muestra
Variables
Aprendizaje Semi-Supervisado
• Combina el aprendizaje supervisado y el No supervisado
• Tiene como objetivo incrementar la exactitud del aprendizaje supervisado
explotando la información de datos no etiquetados.
Aprendizaje Por Refuerzo o Reforzado (Reinforcement Learning)
• Busca establecer cuáles acciones debería escoger un agente de software en un
entorno dado con el objetivo de maximizar la "recompensa" o premio acumulado.
• Especialmente adecuado para problemas que incluyen un razonamiento a largo
plazo frente a uno a corto plazo.
• Tiene aplicaciones en problemas como el control de robots, las
telecomunicaciones, juego de damas, entre otros.
• Regresión lineal
• Regresión polinómica
• Árboles de regresión
• Máquinas de Vectores Soporte
Clasificación
Clasificación puede ser definida como una técnica que
produce un modelo que, dado un nuevo individuo,
determina a cuál clase pertenece dicho individuo.
El objetivo es obtener clústers con elementos que tengan alta similitud entre ellos
(similitud intra-cluster alta) y baja similitud con objetos de otros clústers (similitud
inter-clúster baja).
• k-Medias (k-Means)
• k-Medioides (k-Medoids)
• EM (Expectation Maximisation)
Proceso de aprendizaje supervisado: Entrenamiento y Pruebas
Pruebas
Validación
Entrenamiento