Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Aprendizaje PDF
Aprendizaje PDF
estrategias de diálogo
Javier Gonzalvo Jose Antonio Morán Moreno Carlos Monzo Sánchez Santi Planet García
Fructuoso
Departamento de Comunicaciones y Tratamiento de la señal
Universidad de la Salle (URL)
e-mail : {gonzalvo,moran,cmonzo,splanet}@salleurl.edu
Abstract- This paper presents the design of spoken Para llevar a cabo el aprendizaje se ha desarrollado un
dialogue system strategies based on reinforcement entorno a partir del cual el diseñador puede adaptar cada
learning. Many authors have recently proposed treating sistema a sus necesidades. La aplicación se ha creado con
the dialogue system as a state sequence and the dos objetivos. Por un lado, independizar el sistema de
introduction of learning methods based on trial-and- aprendizaje respecto al contexto del diálogo. Por otro lado,
error to find and optimal dialogue strategy has opened a facilitar y agilizar el diseño de los sistemas de diálogo.
new investigation area. This work proposes some ideas to
deal with the probabilities of the simulated model, Usuarios Sistema de
Aprendizaje
learning automatization and reinforce variables. All this Simulados diálogo
Mundo Usuarios
I. INTRODUCCIÓN exterior reales
acuerdo con el valor más favorable de Q para el estado Fig. 5. (a) Estrategia aprendida. (b) Evolución del refuerzo.
siguiente. Se cumple que el sistema Sarsa converge con La segunda prueba es el diseño de un sistema de venta de
probabilidad 1 a la conducta óptima siempre y cuando se entradas de cine con el siguiente espacio de estados.
cumplan las condiciones de exploración.
La actualización del aprendizaje se basa en la (ec. 9) Atributos Posibles valores
donde se tiene en cuenta el factor de aprendizaje (α), el Título,hora,cine,numerada {conocido, no conocido}
refuerzo para la transición actual (r) y la diferencia entre el BBDD {buscado, no buscado}
aprendizaje actual Q(s,a) y el aprendizaje del siguiente CL {alto, bajo}
ValoresPorConfirmar {0,...,3}
estado elegido representado como Q(s’,a’). Relajación {verdadero, falso}
Los parámetros más importantes se configuran como
sigue. Por un lado, del modelo simulado se destaca la
probabilidad de que se cometa un error P(E)=0.2 y la
probabilidad del usuario de proporcionar más de un atributo
Refuerzo
al recibir la salutación del sistema P(J/S)=0.8. El error se fija
a C=25 dada la longitud esperada de nuestro sistema. Los
factores de importancia del error son:
⎧ 4 si acción = DATOS
⎪
wi = ⎨0 si acción = C i CL = bajo (11)
⎪ 1 para el resto de acciones
⎩
Episodio