Sesión 2 ING01216 Aprendizaje de Máquina v3

APRENDIZAJE DE MÁQUINA Y
COMPUTACIÓN EVOLUTIVA
(ING01216)
Marzo 2021
Fundamentos del
aprendizaje de máquina
Agenda
• Introducción. Conceptos básicos: Minería de datos, Ciencia de datos, aprendizaje de
máquina, analítica. ¿Cómo puede aprender una máquina?
• Posibles fuentes de datos
• Disciplinas de la ciencia de datos.
• Tipos de científicos de datos.
• Tabla periódica del científico de datos.
• Escenarios de aplicación de la ciencia de datos.
• Proceso Aprendizaje de máquina. Metodología CRISP-DM.
• Tipos de Aprendizaje de Máquina (Aprendizaje supervisado y No supervisado).
• Introducción a Regresión, Clasificación y Clustering.
• Proceso de aprendizaje supervisado: Entrenamiento y Pruebas
Conceptos básicos
Minería de datos Aprendizaje
Proceso de descubrir de máquina
patrones en los datos
Campo de estudio que
proporciona a los computadores
la capacidad de aprender sin
Ciencia haber sido explícitamente
de datos programados.
Integra varias disciplinas e
incluye aprendizaje de
máquina y minería de
datos para convertir datos
en valor para los negocios.
Conceptos básicos
El aprendizaje de máquina y la minería de datos comparten algunas

características. Sin embargo, hay diferencias a considerar.
Por ejemplo, aunque cuentan con el objetivo común de obtener conocimiento

de los datos, el aprendizaje de máquina usa la experiencia e información
conocida mientras que la minería de datos intenta descubrir nuevo
conocimiento.
Ejercicio
v i d e o ?
a s d e l
e c u e r d e n t re
¿Qué r l a ció n
s la r e e
uá l e r n i n g
¿C i n e L e a
l ?
M a c h rt i f i c ia
n c ia A
t el ig e
In
Conceptos básicos
Relación entre Machine Learning e Inteligencia Artificial
Fuente: Oracle
Conceptos básicos
Analítica – Tipos de Analítica
Ciencia de Datos
Analítica Avanzada
Identifica estrategias
y acciones que
A partir de lo mejoren los
sucedido resultados previstos.
A partir de lo
predice lo que
Analiza e sucedido explica
sucederá -> ¿Qué hacer?
interpreta lo porqué está
-> ¿Cómo hacerlo?
que ha ocurriendo algo -> ¿Qué podría
sucedido pasar?
-> ¿Qué pasó? -> ¿Por qué pasó?
-> ¿Cómo pasó?
Fuente: Arun Kottolli

Ejercicio
¿Qué tan rápido estoy manejando?

¿Qué tan rápido he manejado hoy?
¿Para cuántos kilómetros me

alcanzará la gasolina?
¿Cuál es el camino más rápido para

llegar a mi destino?
Fuente: Infórmese
¿Cómo puede aprender una máquina?
• ¡Usando datos!
• Antes, se debían programar explícitamente las reglas.
• El aprendizaje de máquina o aprendizaje automático tiene el objetivo de "aprender
de los datos" con el fin de extraer conocimiento.
Posibles fuentes de datos
Posibles fuentes de datos
Fuente: https://www.informationmanagementtoday.com/trends/
Tipos de Datos
Tipos de Datos
Estructurados
Estructurados
• Cuentan con un modelo de datos o esquema
• Son almacenados en forma tabular
• Generalmente están almacenados en bases de datos relacionales.
• Normalmente son generados por las aplicaciones empresariales.
• Los datos estructurados generalmente no tienen requerimientos especiales
de pre-procesamiento o de almacenamiento.
Tipos de Datos
Semi-estructurados
Semi-estructurados
• Tienen un nivel definido de estructura y
consistencia pero no son relacionales por naturaleza.
• Generalmente existen en formatos textuales tales como archivos XML o JSON
• Pueden ser procesados más fácilmente que los datos no estructurados.
• Algunos ejemplos comunes de fuentes de datos semi-estructurados son:
• EDI (Electronic Data Interchange)
• E-mails
• Hojas de cálculo
• XML, HTML
Tipos de Datos
No estructurados
No estructurados
• No tienen un modelo o esquema de datos
• Son generalmente no relacionales
• Existen en forma textual o binaria.
• Algunos ejemplos son: Imágenes, audio, video, posts redes sociales.
• Al contrario de los datos estructurados, los datos no estructurados
generalmente necesitan lógica especial para pre-procesarlos.
• Usualmente requieren el uso de bases de datos no relacionales, tales como
bases de datos NoSQL.
Tipos de Datos
Según fuentes y formatos
Disciplinas de la ciencia de datos
La ciencia de datos requiere la combinación de disciplinas diferentes:
Tabla periódica de la Ciencia de Datos
Fuente: https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Data-Science-Periodic-Table.pdf
Cursos, bootcamps y conferencias
Lenguajes de programación y distribuciones. Búsqueda y administración de datos
Frameworks de Aprendizaje de máquina y Herramientas de Visualización
IDEs y herramientas colaborativas
Fuentes de datos y retos
Comunidad
Newsletters y podcasts
Escenarios de aplicación de ciencia de datos y aprendizaje de
máquina
✔ Detección y prevención de fraudes
✔ Optimización de campañas de mercadeo
✔ Segmentación de clientes
✔ Mantenimiento predictivo
✔ Previsión de la demanda de energía
✔ Optimización de costos
✔ Diagnóstico de enfermedades
✔ Análisis de tendencias de crímenes
✔ Exploración espacial
✔ Otros… En todos los sectores!
Naturaleza del aprendizaje de máquina
• El aprendizaje de máquina aplica un proceso iterativo.
• Es de carácter experimental.
• Constituye un desafío adaptativo.
• En los proyectos de ciencia de datos y aprendizaje de máquina pueden usarse
metodologías ágiles (Ej. SCRUM), design thinking y lean-startup.
Naturaleza del aprendizaje de máquina
Metodologías existentes para la Innovación Digital
Fuente: Gartner
Proceso Aprendizaje
Metodología CRISP-DM
de máquina
Determinar los objetivos del negocio
Comprende Definir el problema
r el
Negocio
Recolectar datos
Planear despliegue Comprender Describir datos
Hacer despliegue Desplegar Explorar datos
los datos
Verificar calidad de datos
Preparar Seleccionar datos

Evaluar Limpiar datos
Evaluar resultados los datos
Revisar proceso Construir datos
Modelar Seleccionar técnica de modelado

Generar diseño de prueba
Construir modelo (Entrenar y Probar)
Evaluar modelo
Roles relacionados con la ciencia de datos
Comprend Comprende
Preparar Modelar Desplegar
er los r el Negocio
los datos
datos
Fuente: Workera. https://www.deeplearning.ai/

https://workera.ai/?utm_source=website&utm_medium=cta&utm_campaign=deeplearning
Científicos de datos Tipo I y Tipo II
Fuente: http://www.oralytics.com/2013/03/type-i-and-type-ii-data-scientists.html
Ciudadano Científico de Datos (Citizen Data Scientist)
• Tiene habilidades para el análisis de datos.

• Tiene bases estadísticas. Combina las habilidades de los analistas de negocio
tradicionales con algunos conocimientos estadísticos.
• Proporciona ideas para mejorar modelos existentes.
• No requiere conocimiento matemático avanzado.
Fuente: https://www.forbes.com/sites/stevebanker/2018/01/19/the-citizen-data-scientist/#3af847cf2702
Elementos de una solución Analítica
Capacidad Intelectual
Conocimiento
de Negocio
Modelamiento
matemático y
estadístico
Sistema de
Analítica
Predictiva
Capacidad Tecnológica
Plataforma de
Análisis
Predictivo
Herramienta de
Visualización
de datos
Técnicas de Análisis de Datos Análisis Estadístico
•AB Testing
•Correlación
Análisis Visual
•Mapas de calor
•Series de tiempo
•Análisis de redes
•Análisis de datos espaciales
Aprendizaje de Máquina
•Regresión
•Clasificación
•Clustering (Agrupamiento)
•Detección de datos atípicos
•Filtrado
Análisis Semántico
•Procesamiento de Lenguaje Natural (NLP)
•Analítica de Texto/Minería de Texto
•Análisis de sentimientos
Clasificación de los algoritmos de aprendizaje
Según el tipo de aprendizaje y la categoría del problema
de máquina
Aprendizaje Supervisado
• Recibe un conjunto de datos de entrada con sus correspondientes salidas y aprende
de estos ejemplos para luego hacer predicciones sobre la salida para entradas no
vistas antes.
Registros o muestra
Variables Etiquetas
Aprendizaje No Supervisado
• Usa datos que no tienen etiquetas asociadas. Su objetivo es encontrar patrones en
los datos y organizarlos en una forma significativa.

Registros o muestra
Variables
Aprendizaje Semi-Supervisado
• Combina el aprendizaje supervisado y el No supervisado
• Tiene como objetivo incrementar la exactitud del aprendizaje supervisado
explotando la información de datos no etiquetados.

Aprendizaje Por Refuerzo o Reforzado (Reinforcement Learning)
• Busca establecer cuáles acciones debería escoger un agente de software en un
entorno dado con el objetivo de maximizar la "recompensa" o premio acumulado.
• Especialmente adecuado para problemas que incluyen un razonamiento a largo
plazo frente a uno a corto plazo.
• Tiene aplicaciones en problemas como el control de robots, las
telecomunicaciones, juego de damas, entre otros.
Machine Learning (Stanford): https://www.youtube.com/watch?v=RtxI449ZjSc

Regresión
Regresión puede ser definida como una técnica que
intenta estimar o predecir para cada registro el valor
numérico continuo de alguna variable para ese
registro.
Algunos algoritmos frecuentemente utilizados son:
• Regresión lineal
• Regresión polinómica
• Árboles de regresión
• Máquinas de Vectores Soporte
Clasificación
Clasificación puede ser definida como una técnica que
produce un modelo que, dado un nuevo individuo,
determina a cuál clase pertenece dicho individuo.
La clasificación se realiza para predecir etiquetas de

categorías o clases. Puede ser clasificación binaria o
clasificación multiclase.

• Árboles de decisión • Redes Neuronales
• Bosques aleatorios • Máquinas de Vectores Soporte
• Naïve Bayes • k-NN
Clustering
Clustering es una técnica que busca agrupar datos según su similitud.
El objetivo es obtener clústers con elementos que tengan alta similitud entre ellos
(similitud intra-cluster alta) y baja similitud con objetos de otros clústers (similitud
inter-clúster baja).
• k-Medias (k-Means)
• k-Medioides (k-Medoids)
• EM (Expectation Maximisation)
Proceso de aprendizaje supervisado: Entrenamiento y Pruebas
Pruebas
Validación
Entrenamiento
• El algoritmo aprende un modelo usando un conjunto de datos de entrenamiento.

• El modelo construido es probado usando datos nuevos, no vistos antes, para probar el
rendimiento del modelo.
Preguntas?

Sesión 2 ING01216 Aprendizaje de Máquina v3

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Sesión 2 ING01216 Aprendizaje de Máquina v3

Cargado por

Copyright:

Formatos disponibles

APRENDIZAJE DE MÁQUINA Y

El aprendizaje de máquina y la minería de datos comparten algunas

Por ejemplo, aunque cuentan con el objetivo común de obtener conocimiento

Fuente: Arun Kottolli

¿Qué tan rápido estoy manejando?

¿Para cuántos kilómetros me

¿Cuál es el camino más rápido para

Preparar Seleccionar datos

Modelar Seleccionar técnica de modelado

Fuente: Workera. https://www.deeplearning.ai/

• Tiene habilidades para el análisis de datos.

Machine Learning (Stanford): https://www.youtube.com/watch?v=RtxI449ZjSc

Algunos algoritmos frecuentemente utilizados son:

La clasificación se realiza para predecir etiquetas de

Algunos algoritmos frecuentemente utilizados son:

Algunos algoritmos frecuentemente utilizados son:

• El algoritmo aprende un modelo usando un conjunto de datos de entrenamiento.

También podría gustarte