Está en la página 1de 1

Aprendizaje no supervisado

Artículo principal: Aprendizaje no supervisado

Todo el proceso de modelado se lleva a cabo sobre un conjunto de ejemplos formado tan
solo por entradas al sistema. No se tiene información sobre las categorías de esos
ejemplos. Por lo tanto, en este caso, el sistema tiene que ser capaz de reconocer
patrones para poder etiquetar las nuevas entradas.

Aprendizaje semisupervisado

Este tipo de algoritmos combinan los dos algoritmos anteriores para poder clasificar de
manera adecuada. Se tiene en cuenta los datos marcados y los no marcados.

Aprendizaje por refuerzo

Artículo principal: Aprendizaje por refuerzo

El algoritmo aprende observando el mundo que le rodea. Su información de entrada es la


retroalimentación que obtiene del mundo exterior como respuesta a sus acciones. Por lo
tanto, el sistema aprende a base de ensayo-error.

El aprendizaje por refuerzo es el más general entre las tres categorías. En vez de que un
instructor indique al agente qué hacer, el agente inteligente debe aprender cómo se
comporta el entorno mediante recompensas (refuerzos) o castigos, derivados del éxito o
del fracaso respectivamente. El objetivo principal es aprender la función de valor que le
ayude al agente inteligente a maximizar la señal de recompensa y así optimizar sus
políticas de modo a comprender el comportamiento del entorno y a tomar buenas
decisiones para el logro de sus objetivos formales.

Los principales algoritmos de aprendizaje por refuerzo se desarrollan dentro de los


métodos de resolución de problemas de decisión finitos de Markov, que incorporan las
ecuaciones de Bellman y las funciones de valor. Los tres métodos principales son: la
programación dinámica, los métodos de Monte Carlo y el aprendizaje de diferencias
temporales.4

Entre las implementaciones desarrolladas está AlphaGo, un programa de IA


desarrollado por Google DeepMind para jugar el juego de mesa Go. En marzo de 2016
AlphaGo le ganó una partida al jugador profesional Lee Se-Dol que tiene la categoría
noveno dan y 18 títulos mundiales. Entre los algoritmos que utiliza se encuentra el árbol
de búsqueda Monte Carlo, también utiliza aprendizaje profundo con redes neuronales.
Puede ver lo ocurrido en el documental de Netflix “AlphaGo”.

Transducción

Similar al aprendizaje supervisado, pero no construye de forma explícita una función.


Trata de predecir las categorías de los futuros ejemplos basándose en los ejemplos de
entrada, sus respectivas categorías y los ejemplos nuevos al sistema.

Aprendizaje multi-tarea

También podría gustarte