Está en la página 1de 81

Introducción a

Aprendizaje de Máquina
MÓDULO 1

2
Agenda
1) Definición
2) Historia
3) Aplicaciones
4) Tipos de Aprendizaje.
5) Argot de Aprendizaje de Máquina
6) Áreas Relacionadas
7) Limitaciones
8) Bibliotecas
9) Conferencias

3
Definición
¿Aprendizaje de Máquina?
01 02 Tony Tether, 03
Bill Gates, Microsoft DARPA John Hennessy, Stanford
"Un avance en el "El aprendizaje de máquina "El aprendizaje de
aprendizaje de máquina es el próximo Internet" máquina es la nueva
valdría diez microsofts" moda"

04 05 06
Prabhakar Raghavan, Yahoo Greg Papadopoulos, Sun Steve Ballmer, Microsoft
"Las clasificaciones web de hoy " El aprendizaje de "El aprendizaje de máquina hoy
son principalmente una máquina resulta en una es uno de los aspectos más
cuestión de aprendizaje de candentes de la computación"
máquina"
verdadera revolución"

5
¿Qué significa Aprendizaje?

"La actividad o proceso de obtener conocimiento o habilidad estudiando,


practicando, enseñándose o experimentando algo".
Diccionario Merriam Webster

6
¿Qué significa Aprendizaje?

"La actividad o proceso de obtener conocimiento o habilidad estudiando,


practicando, enseñándose o experimentando algo".
Diccionario Merriam Webster

7
Entonces, ¿qué es el aprendizaje de
máquina?

“El aprendizaje de máquina es el


campo de estudio que le da a la
computadora la capacidad de
aprender sin ser programada
explícitamente.”
~ Arthur Samuel (1959)

8
Entonces, ¿qué es el aprendizaje de
máquina?

“El aprendizaje de máquina es el “Se dice que un programa de


campo de estudio que le da a la computadora aprende de la experiencia E
con respecto a alguna clase de tareas T y
computadora la capacidad de la medida de desempeño P, si su
aprender sin ser programada desempeño en tareas en T, medido por P,
explícitamente.” mejora con la experiencia E.”
~ Arthur Samuel (1959) ~ Tom Mitchell (1998)

9
Entonces, ¿qué es el aprendizaje de
máquina?
● Automatización de la automatización
● Hacer que las computadoras se programen
● El software de escritura es el cuello de botella
● ¡Deje que los datos hagan el trabajo!

10
Entonces, ¿qué es el aprendizaje de
máquina?
● Automatización de la automatización
● Hacer que las computadoras se programen
● El software de escritura es el cuello de botella
● ¡Deje que los datos hagan el trabajo!

Programación Tradicional

datos
Computadora resultado
programa

11
Entonces, ¿qué es el aprendizaje de
máquina?
● Automatización de la automatización
● Hacer que las computadoras se programen
● ¡Deje que los datos hagan el trabajo!
● Usar la computadora para detectar automáticamente patrones en los datos y usarlos
para hacer predicciones o decisiones.

Programación Tradicional Aprendizaje de Máquina

datos datos
Computadora resultado Computadora programa
programa resultado

12
Entonces, ¿qué es el aprendizaje de
máquina?
● Automatización de la automatización
● Hacer que las computadoras se programen
● ¡Deje que los datos hagan el trabajo!

Programación Tradicional Aprendizaje de Máquina

datos datos
Computadora resultado Computadora programa
programa resultado

13
¿Magia?

14
¿Magia?
¡NO!

● Semillas = Algoritmos
● Nutrientes = Datos
● Jardinero = Tú
● Plantas = Modelos

15
Historia
Historia

Algoritmo implementado
como un circuito
Perceptron
1957 1959 1969 1980 1990 2000 2010
Historia

Algoritmo implementado
como un circuito
Perceptron
1957 1959 1969 1980 1990 2000 2010

Arthur Samuel
Programa de damas
basado en el
aprendizaje

18
Historia

Perceptrons
Algoritmo implementado (limitaciones de los
como un circuito modelos lineales)

Perceptron Minsky y Papert


1957 1959 1969 1980 1990 2000 2010

Arthur Samuel
Programa de damas
basado en el
aprendizaje

19
Historia

Perceptrons
Algoritmo implementado (limitaciones de los
como un circuito modelos lineales)

Perceptron Minsky y Papert


1957 1959 1969 1980 1990 2000 2010

Arthur Samuel Ideas Fundamentales


Psicólogos - modelos
Programa de damas neuronales de cognición
basado en el 1984 - Leslie Valiant -
aprendizaje aprendizaje PAC
1988 - Backpropagation
Geoffrey Hinton
1988 - Libro de Judea Pearl -
redes bayesianas
20
Historia
Pesimismo/Poco
financiamiento
Algoritmos:
Perceptrons Cadena
Algoritmo implementado (limitaciones de los Markov,Kernels SVMs,
como un circuito modelos lineales) Redes convolucionales

Perceptron Minsky y Papert Invierno/Edad de Oro

1957 1959 1969 1980 1990 2000 2010

Arthur Samuel Ideas Fundamentales


Psicólogos - modelos
Programa de damas neuronales de cognición
basado en el 1984 - Leslie Valiant -
aprendizaje aprendizaje PAC
1988 - Backpropagation
Geoffrey Hinton
1988 - Libro de Judea Pearl -
redes bayesianas
21
Historia
Pesimismo/Poco
financiamiento
Algoritmos:
Perceptrons Cadena
Algoritmo implementado (limitaciones de los Markov,Kernels SVMs,
como un circuito modelos lineales) Redes convolucionales

Perceptron Minsky y Papert Invierno/Edad de Oro

1957 1959 1969 1980 1990 2000 2010

Arthur Samuel Ideas Fundamentales Campos de IA


Psicólogos - modelos
Programa de damas neuronales de cognición Visión Computacional,
basado en el 1984 - Leslie Valiant - NLP, etc
aprendizaje aprendizaje PAC
1988 - Backpropagation
Geoffrey Hinton
1988 - Libro de Judea Pearl -
redes bayesianas
22
Historia
2010-2012 - redes
Pesimismo/Poco neuronales - speech-to-text
financiamiento y reconocimiento de
Algoritmos:
Perceptrons objetos
Cadena
Algoritmo implementado (limitaciones de los 2016 - AlphaGo derrotó al
Markov,Kernels SVMs,
como un circuito modelos lineales) Redes convolucionales campeón humano de Go

Perceptron Minsky y Papert Invierno/Edad de Oro Deep Learning

1957 1959 1969 1980 1990 2000 2010

Arthur Samuel Ideas Fundamentales Campos de IA


Psicólogos - modelos
Programa de damas neuronales de cognición Visión Computacional,
basado en el 1984 - Leslie Valiant - NLP, etc
aprendizaje aprendizaje PAC
1988 - Backpropagation
Geoffrey Hinton
1988 - Libro de Judea Pearl -
redes bayesianas
23
Historia
2010-2012 - redes
Pesimismo/Poco neuronales - speech-to-text
financiamiento y reconocimiento de
Algoritmos:
Perceptrons objetos
Cadena
Algoritmo implementado (limitaciones de los 2016 - AlphaGo derrotó al
Markov,Kernels SVMs,
como un circuito modelos lineales) Redes convolucionales campeón humano de Go

Perceptron Minsky y Papert Invierno/Edad de Oro Deep Learning

1957 1959 1969 1980 1990 2000 2010

Arthur Samuel Ideas Fundamentales Campos de IA


Psicólogos - modelos
Programa de damas neuronales de cognición Visión Computacional,
basado en el 1984 - Leslie Valiant - NLP, etc
aprendizaje aprendizaje PAC
1988 - Backpropagation
Geoffrey Hinton
1988 - Libro de Judea Pearl -
redes bayesianas
24
Aplicaciones
Aplicaciones

Visión computacional: detección de objetos, detección de Speech: conversión de habla a texto, reconocimiento de
rostros, detección de escritura, segmentación semántica, habla, asistentes personales, identificación del hablante, y
estimación de pose, y otras. otras.

26
Aplicaciones

NLP: Traducción automática, análisis de sentimientos,


modelado de temas, filtrado de spam.

Juegos: AlphaGo, Dota2, Starcraft, otros.

27
Aplicaciones

Recuperación de Información. Predicción Financiera. Diagnóstico Médico. Descubrimiento de


nuevos tipos de cáncer.

28
Aplicaciones

Bioinformática. p.ej. modelado de datos de microarrays de Procesamiento de Imágenes. Completar


genes, predicción de estructura de proteínas Robótica.
imágenes.

29
Aplicaciones

Comercio electrónico, sistemas de recomendación:


Amazon, netflix, ...

30
Aplicaciones

Detección de estafas con tarjetas de crédito.

Detección de spam.

31
Tipos de Aprendizaje
Aprendizaje
NO SUPERVISADO

SUPERVISADO

REFORZADO

Imagine un organismo o máquina que experimenta una serie de entradas sensoriales: x1, x2, x3, x4,. . .

33
Aprendizaje
NO SUPERVISADO
El objetivo de la máquina es construir
SUPERVISADO un modelo de x que pueda ser
utilizado para razonar, tomar
La máquina también recibe las decisiones, predecir cosas,
salidas deseadas y1, y2,. . ., y comunicarse, etc.
su objetivo es aprender a
producir la salida correcta
dada una nueva entrada.
REFORZADO
La máquina también puede producir acciones
a1, a2,. . . que afectan el estado del mundo, y
recibe recompensas (o castigos) r1, r2,. . .. Su
objetivo es aprender a actuar de una manera
que maximice las recompensas a largo plazo.
Imagine un organismo o máquina que experimenta una serie de entradas sensoriales: x1, x2, x3, x4,. . .

34
Aprendizaje
NO SUPERVISADO
El objetivo de la máquina es construir un
SUPERVISADO modelo de x que pueda ser utilizado para
razonar, tomar decisiones, predecir cosas,
La máquina también recibe las comunicarse, etc.
salidas deseadas y1, y2,. . ., y ● Sin etiquetas / objetivos
● Sin realimentación
su objetivo es aprender a
● Encontrar estructura oculta en datos
producir la salida correcta
dada una nueva entrada.
REFORZADO
● Datos etiquetados La máquina también puede producir acciones
● Retroalimentación directa
● Predecir resultado / futuro
a1, a2,. . . que afectan el estado del mundo, y
recibe recompensas (o castigos) r1, r2,. . .. Su
objetivo es aprender a actuar de una manera
que maximice las recompensas a largo plazo.
Imagine un organismo o máquina que experimenta una serie
● de entradas
Proceso sensoriales: x1, x2, x3, x4,. . .
de decisión
● Sistema de recompensas
● Aprende series de acciones 35
Aprendizaje
NO SUPERVISADO

SUPERVISADO

REFORZADO

Imagine un organismo o máquina que experimenta una serie de entradas sensoriales: x1, x2, x3, x4,. . .

36
Aprendizaje Supervisado
● Datos etiquetados
● Retroalimentación directa
● Predecir resultado / futuro
Aprendizaje Supervisado
● Datos etiquetados
● Retroalimentación directa
● Predecir resultado / futuro

Clasificación
Ejemplo de clasificación binaria con dos
características (variables "independientes",
predictores)
Aprendizaje Supervisado
● Datos etiquetados
● Retroalimentación directa
● Predecir resultado / futuro

objetivo
(variable
dependiente)

atributo
Clasificación
Regresión
Ejemplo de clasificación binaria con dos
características (variables "independientes",
predictores)
Aprendizaje Supervisado
● Datos etiquetados
● Retroalimentación directa
● Predecir resultado / futuro

objetivo
(variable
dependiente)

atributo Regresión Ordinal


Clasificación Dependencia de orden como en la regresión métrica,
Regresión pero no distancia métrica. Valores discretos como en
Ejemplo de clasificación binaria con dos
características (variables "independientes", la clasificación, pero dependientes del orden
predictores)
Aprendizaje Supervisado
En Visión Computacional En Procesamiento de Lenguaje Natural

Clasificación Detección de Objetos Traducción Automática


Aprendizaje
NO SUPERVISADO

SUPERVISADO

REFORZADO

Imagine un organismo o máquina que experimenta una serie de entradas sensoriales: x1, x2, x3, x4,. . .

42
Aprendizaje No Supervisado
● Sin etiquetas / objetivos
● Sin realimentación
● Encontrar estructura oculta en datos
Aprendizaje No Supervisado
● Sin etiquetas / objetivos
● Sin realimentación
● Encontrar estructura oculta en datos

Análisis de Componentes Principales

Aprendizaje de representación /Reducción de dimensionalidad


Aprendizaje No Supervisado
● Sin etiquetas / objetivos
● Sin realimentación
● Encontrar estructura oculta en datos

representación latente

Análisis de Componentes Principales Autoencoders

Aprendizaje de representación /Reducción de dimensionalidad


Aprendizaje No Supervisado
● Sin etiquetas / objetivos
● Sin realimentación
● Encontrar estructura oculta en datos

representación latente

Aprendizaje manifold usando kernel PCA


Análisis de Componentes Principales Autoencoders

Aprendizaje de representación /Reducción de dimensionalidad


Aprendizaje No Supervisado
● Sin etiquetas / objetivos
● Sin realimentación
● Encontrar estructura oculta en datos

Asignar grupos a ejemplos no etiquetados (instancias,


puntos de datos)

Agrupamiento
Aprendizaje No Supervisado
● Sin etiquetas / objetivos
● Sin realimentación
● Encontrar estructura oculta en datos

Identifying Regulatory Mechanisms using Individual Variation Reveals Representar palabras por vectores
Key Role for Chromatin Modification. [Su-In Lee, Dana Pe'er, Aimee
M. Dudley, George M. Church and Daphne Koller. ’06]
Clustering de genes Word embeddings
Aprendizaje No Supervisado
● Sin etiquetas / objetivos
● Sin realimentación
● Encontrar estructura oculta en datos

Clustering de palabras con significado parecido


Aprendizaje SemiSupervisado

• mezcla entre aprendizaje supervisado y no supervisado


• algunos ejemplos de entrenamiento contienen salidas, pero otros no
• IDEA: usar el subconjunto de entrenamiento etiquetado para etiquetar la parte no
etiquetada del conjunto de entrenamiento, que luego también utilizaremos para el
entrenamiento modelo
Aprendizaje SemiSupervisado

• mezcla entre aprendizaje supervisado y no supervisado


• algunos ejemplos de entrenamiento contienen salidas, pero otros no
• IDEA: usar el subconjunto de entrenamiento etiquetado para etiquetar la parte no
etiquetada del conjunto de entrenamiento, que luego también utilizaremos para el
entrenamiento modelo
Aprendizaje
NO SUPERVISADO

SUPERVISADO

REFORZADO

Imagine un organismo o máquina que experimenta una serie de entradas sensoriales: x1, x2, x3, x4,. . .

52
Aprendizaje Reforzado
● Proceso de decisión
● Sistema de recompensas
● Aprende series de acciones
Aprendizaje Reforzado
● Proceso de decisión
● Sistema de recompensas
● Aprende series de acciones

Ambiente
Recompensa
Estado

Acción
Agente
Aprendizaje Reforzado
● Proceso de decisión
● Sistema de recompensas
● Aprende series de acciones Punto de referencia actual de última generación: StarCraft II

Vinyals, Oriol, Timo Ewalds, Sergey Bartunov, Petko Georgiev, Alexander Sasha Vezhnevets,
Michelle Yeo, Alireza Makhzani et al. "Starcraft II: A new challenge for reinforcement
learning." arXiv preprint arXiv:1708.04782 (2017).
Kaggle 2019
Encuesta de profesionales de ciencia de datos y ML: ¿qué métodos
de ciencia de datos utiliza en el trabajo?

56
Argot de Aprendizaje
de Máquina
Representación de Datos
Punto de dato: Instancia de datos, vector de características

58
Representación de Datos
Punto de dato: Instancia de datos, vector de características

Atributo: Cada elemento de x, características medidas (observadas), variables.

59
Representación de Datos
Punto de dato: Instancia de datos, vector de características

Atributo: Cada elemento de x, características medidas (observadas), variables.

Número de Atributos:

60
Representación de Datos
Conjunto de datos: N puntos (instancia de datos).

61
Datos Estructurados
bases de datos, hojas de cálculo / archivos csv

62
Datos Estructurados
bases de datos, hojas de cálculo / archivos csv

63
Datos Estructurados
bases de datos, hojas de cálculo / archivos csv

instancias

150

variable objetivo/
etiqueta
atributos

64
Datos No Estructurados
características como píxeles de imagen, señales de
audio, oraciones de texto

65
Datos No Estructurados
características como píxeles de imagen, señales de
audio, oraciones de texto

66
Más términos
● Ejemplo de entrenamiento: sinónimo de observación, registro de entrenamiento, instancia de entrenamiento, muestra de

entrenamiento (* en algunos contextos, muestra se refiere a una colección de ejemplos de entrenamiento)

● Característica, sinónimo de predictor, variable, variable independiente, entrada, atributo, covariable

● Objetivo: sinónimo de resultado, verdad fundamental, salida, variable de respuesta, variable dependiente, etiqueta (clase) (en

clasificación)

● Salida / predicción: usada para distinguir de los objetivos; significa salida del modelo

● Modelo: Dados los datos D, aprendemos los parámetros del modelo θ, a partir de los cuales podemos predecir nuevos puntos de

datos.

67
Áreas Relacionadas
Minería de Datos vs. Aprendizaje Automático
Extrae automáticamente conocimientos Usar la computadora para detectar automáticamente patrones en
útiles de grandes conjuntos de datos. los datos y usarlos para hacer predicciones o decisiones.
- Por lo general, para ayudar con la - Queremos automatizar algo que un humano puede hacer.
toma de decisiones humanas. - Queremos hacer cosas que un humano no puede hacer (ver 1 TB
de datos).

Bases de Mineración Aprendizaje Inteligencia


datos de Datos de Máquina Artificial

Humanos en el proceso

Generalización de tareas

69
Minería de Datos vs. Aprendizaje Automático
La minería de datos y el aprendizaje automático son muy similares:
- La minería de datos a menudo linda más con las bases de datos.
- El aprendizaje automático a menudo linda más con la inteligencia artificial.

Bases de Mineración Aprendizaje Inteligencia


datos de Datos de Máquina Artificial

Ambos son similares a la estadística, pero más énfasis en


Humanos en:el proceso
- Grandes conjuntos de datos y computación.
- Predicciones (en lugar de descripciones). Generalización de tareas
- Modelos flexibles (que funcionan en muchos problemas).

70
Aprendizaje Profundo vs. Aprendizaje de
Máquina vs. Inteligencia Artificial

● Inteligencia artificial: Ciencia que estudia formas de construir


programas y máquinas inteligentes que puedan resolver
problemas de manera creativa.
Inteligencia Artificial ● Aprendizaje automático: Subconjunto de inteligencia artificial
(IA) que proporciona a los sistemas la capacidad de aprender
Aprendizaje de Máquina y mejorar automáticamente a partir de la experiencia sin ser
programado explícitamente.
● Aprendizaje profundo, o aprendizaje neuronal profundo:
Subconjunto del aprendizaje automático, que utiliza las redes
Aprendizaje Profundo neuronales para analizar diferentes factores con una
estructura similar al sistema neuronal humano.

71
Aprendizaje Profundo vs. Aprendizaje de
Máquina vs. Inteligencia Artificial

● Inteligencia artificial: Ciencia que estudia formas de construir


programas y máquinas inteligentes que puedan resolver
= un sistema no biológico que es inteligente a través de reglas
problemas de manera creativa.
Inteligencia Artificial ● Aprendizaje automático: Subconjunto de inteligencia artificial
(IA) que proporciona a los sistemas la capacidad de aprender
Aprendizaje de Máquina y=mejorar
algoritmos que aprenden modelos
automáticamente a partir/ de
representaciones
la experiencia /sin
reglas
ser
automáticamente a partir
programado explícitamente. de datos / ejemplos
● Aprendizaje profundo, o aprendizaje neuronal profundo:
Subconjunto del aprendizaje automático, que utiliza las redes
= algoritmos que parametrizan redes neuronales de múltiples
Aprendizaje Profundo neuronales para analizar diferentes factores con una
capas que luego aprenden representaciones de datos con
estructura similar al sistema neuronal humano.
múltiples capas de abstracción

72
Limitaciones
Limitaciones
"La combinación de algunos datos y un deseo doloroso de una
respuesta no asegura que se pueda extraer una respuesta
razonable de un cuerpo de datos dado". - John Tukey(FFT)

Un gran número de personas que aplican ML están simplemente


"sobreajustando" (overfitting).
● O no entienden los supuestos necesarios para que puedan
trabajar.
● O sus métodos no funcionan cuando son liberados "a la
naturaleza".

74
Bibliotecas
Principales bibliotecas científicas de Python

https://speakerdeck.com/jakevdp/the-state-of-the-stack-scipy-2015-keynote?slide=8 76
Principales bibliotecas científicas de Python

https://speakerdeck.com/jakevdp/the-state-of-the-stack-scipy-2015-keynote?slide=8 77
Conferencias
Principales Conferencias
1. International Conference on Machine Learning (ICML)
2. International Joint Conference on Artificial Intelligence and Pacific Rim International Conference on Artificial Intelligence (IJCAI-PRICAI)
3. The Conference for Machine Learning Innovation (ML Conference)
4. Conference on Neural Information Processing Systems (NeurIPS)
5. O’Reilly Strata Data & AI Conference
6. International Conference on Machine Learning and Data Mining (MLDM)
7. DATAx - evento que reúne a líderes empresariales, estrategas y profesionales
8. Ai4 - ponentes de las compañías más innovadoras del mundo
9. AI Summit NSW 2020 - evento dedicado a directores de información, jefes de AI / ML, jefes de innovación y jefes de ciencia de datos.
10. International Conference on Learning Representations (ICLR)
11. International Conference on Machine Learning, Optimization, and Data Science (LOD)
12. Applied Machine Learning Conference - Fundación Tom Tom
13. Intelligent Systems Conference (IntelliSys)
14. Annual Conference on Learning Theory (COLT)
15. European Conference on Artificial Intelligence (ECAI)
16. The Data Science Conference - esta es la única conferencia de ciencia de datos libre de patrocinadores, vendedores y reclutadores
17. KDD - investigadores y profesionales de la ciencia de datos, minería de datos, descubrimiento de conocimiento, análisis de datos a gran
escala y big data
18. European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (ECML PKDD)
19. Open Data Science Conference

79
Perú
1. International Conference on Information Management and Big Data (SIMBig)

2. Simposio Peruano de Deep Learning (SPDL)

3. Peruvian Symposium on Artificial Intelligence (SPIA)

80
Bibliografía recomendada de la sesión
• Bishop CM. Pattern recognition and machine learning. springer; 2006.
• Müller AC, Guido S. Introduction to machine learning with Python: a guide for data scientists. " O'Reilly Media, Inc."; 2016 Sep 26.
• Witten IH, Frank E. Data mining: practical machine learning tools and techniques. Acm Sigmod Record. 2002 Mar 1;31(1):76-7.
• Mueller JP, Massaron L. Machine learning for dummies. John Wiley & Sons; 2016 May 31.
• Domingos P. A few useful things to know about machine learning. Communications of the ACM. 2012 Oct 1;55(10):78-87.

81

También podría gustarte