Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Clase 13-Aprendizaje Automatizado
Clase 13-Aprendizaje Automatizado
Aprendizaje automatizado
• Aprendizaje automatizado
• Problemas de aprendizaje
• Problemas de clasificación supervisada
• Herramientas
APRENDIZAJE
▶ ¿Qué experiencia?
▶ ¿Qué debe aprender?
▶ ¿Cómo representamos el conocimiento?
▶ ¿Qué algoritmo usaremos para aprenderlo?
▶ ¿Cómo se mide la mejora?
PROBLEMA DE APRENDIZAJE
Ejemplo
Una forma de que un sistema aprenda a reconocer
palabras en un texto manuscrito, puede ser a partir de
una base de datos con imágenes de palabras manuscritas
y sus correspondientes transcripciones.
La forma de saber si el sistema ha aprendido a
reconocer palabras, será darle un texto manuscrito y ver
cuantas transcripciones correctas hace.
Caracterización de este problema de aprendizaje
▶ T: Reconocer palabras manuscritas
▶ E: Base de datos de palabras con sus transcripciones
▶ R: Porcentaje de palabras reconocidas
CLASIFICACIÓN PROBLEMAS DE APRENDIZAJE
▶ Problemas de regresión
▶ Problemas de clasificación o aprendizaje
Supervisado
▶ Aprendizaje No supervisado
▶ Aprendizaje profundo
CLASIFICACIÓN PROBLEMAS DE APRENDIZAJE
► En este caso:
►El conjunto de entrenamiento tiene la forma
D = {(x (j), c(j)) : j = 1, . . . , N},
donde x (j) ∈ An , c(j) ∈ C
► Principalmente, hablaremos de clasificación
binaria y consideraremos C = {0, 1} (a
veces C = {+, −})
►Se trata de encontrar una función h : An → C que
se ajuste al conjunto de entrenamiento y que
nos sirva para clasificar nuevas instancias
Ejemplo: clasificación de la flor de iris
▶ Ver ejemplo …
Aprendizaje supervisado
(ejemplo)
► Conjunto de entrenamiento
► Ejemplos: días en los que es recomendable (o no) jugar al tenis
► Representación como una lista de pares atributo–valor
C IEL O
+
H UME DA D V I E N TO
A LTA N O R MA L F U E RT E D EBIL
− + − +
Árboles de
decisi´on
► Ejemplos de árboles de decisión
C OLOR
R Oj O V E R DE A zUL
−
T A M A Ñ O F O R MA
+ − +
T A M A Ñ O
G R ANDE P E q U E Ñ O
+ −
Árboles de
decisi´on
► A´rboles de decisi´on
► Nodos interiores: atributos
► Arcos: posibles valores del nodo origen
► Hojas: valor de clasificación (usualmente + ó −, aunque podría ser
cualquier conjunto de valores, no necesariamente binario)
► Representaci´on de una funci´on objetivo
► Disyunción de reglas proposicionales:
(CIELO=SOLEADO ∧ HUMEDAD=ALTA → JUGARTENIS= −)
∨
(CIELO=SOLEADO ∧ HUMEDAD=NORMAL → JUGARTENIS=+)
∨ (CIELO=NUBLADO → JUGARTENIS= +)
∨ (CIELO=LLUVIOSO ∧ VIENTO=FUERTE → JUGARTENIS= −)
∨ (CIELO=LLUVIOSO ∧ VIENTO=DEBIL → JUGARTENIS= +)
Humedad SI Viento
SI
NO
NO SI
▶ Abrir el programa,
▶ Seleccionar “Explorer”,
▶ Seleccionar “Open URL” si consultaremos desde internet, sino “Open File”,
▶ Poner la dirección de la BD: https://storm.cis.fordham.edu/~gweiss/data
mining/weka-data/weather.arff
▶ Seleccionar método de filtrado, en este caso
Usando Weka
▶ Se aplica a todos:
▶ Se selecciona un método de
clasificación, en este caso usaremos:
CUANDO USAR ÁRBOLES DE
DECISION
▶ Los ejemplos son representados por pares
atributo-valor.
▶ La función a representar tiene valores discretos
(caso del problema de clasificación).
▶ El conjunto de entrenamiento puede contener
errores.
▶ El conjunto de entrenamiento puede contener
valores desconocidos.
CLASIFICACIÓN PROBLEMAS DE APRENDIZAJE
▶ Aprendizaje No supervisado
▶ k-NN
▶ Agrupamiento o clustering
▶ Aprendizaje profundo
▶ Redes neuronales
▶ Redes neuronales convolucionales
Clasificación mediante vecino
más cercano
► Una técnica alternativa a construir el modelo probabilístico
es calcular la clasificación directamente a partir de los
ejemplos (aprendizaje basado en instancias)
► Idea: obtener la clasificación de un nuevo ejemplo a partir
de las categorías de los ejemplos más “cercanos”.
► Debemos manejar, por tanto, una noción de “distancia” entre
ejemplos.
► En la mayoría de los casos, los ejemplos serán elementos de
Rn
y la distancia, la euclídea.
► Pero se podr´ıa usar otra nocio´n de distancia
El algoritmo
k-NN
► Características:
► Método no paramétrico. No hacemos asunciones sobre la
distribución de los datos.
► Es un m´etodo perezoso. No existe una fase expl´ıcita de
entrenamiento o es mínima. Esto supone que la fase de
entrenamiento es muy r´apida, pero que ser´an necesario todos
los datos de entrenamiento (o gran parte de ellos) para hacer la
predicción.
Clasificador por el vecino
más próximo
► (REF) Reflexividad: d (x , x ) z
► =(IN0D) Indistinguibilidad: d (x , y ) =∀0x⇒ x = ∀x ,
y y
► Otras...
Medidas de
proximidad
Tipos