Está en la página 1de 4

Entorno para el aprendizaje automático de

estrategias de diálogo
Javier Gonzalvo Jose Antonio Morán Moreno Carlos Monzo Sánchez Santi Planet García
Fructuoso
Departamento de Comunicaciones y Tratamiento de la señal
Universidad de la Salle (URL)
e-mail : {gonzalvo,moran,cmonzo,splanet}@salleurl.edu

Abstract- This paper presents the design of spoken Para llevar a cabo el aprendizaje se ha desarrollado un
dialogue system strategies based on reinforcement entorno a partir del cual el diseñador puede adaptar cada
learning. Many authors have recently proposed treating sistema a sus necesidades. La aplicación se ha creado con
the dialogue system as a state sequence and the dos objetivos. Por un lado, independizar el sistema de
introduction of learning methods based on trial-and- aprendizaje respecto al contexto del diálogo. Por otro lado,
error to find and optimal dialogue strategy has opened a facilitar y agilizar el diseño de los sistemas de diálogo.
new investigation area. This work proposes some ideas to
deal with the probabilities of the simulated model, Usuarios Sistema de
Aprendizaje
learning automatization and reinforce variables. All this Simulados diálogo

issues have improved our learning model.

Mundo Usuarios
I. INTRODUCCIÓN exterior reales

Fig. 2. Entorno de aprendizaje de las estrategias de diálogo.


Debido a los avances en las últimas décadas en el campo
de las tecnologías del habla en sistemas como reconocedores
automáticos del habla, síntesis y procesamiento natural del Existen diversas propuestas para el aprendizaje de
lenguaje, las interfaces de sistemas de diálogos hablados son estrategias de diálogo [2,3] que se basan en el análisis de
cada vez en más comunes e importantes. corpus prediseñados. En este trabajo se ha optado por
modelar un escenario simulado con los elementos más
En este entorno el Departamento de Comunicaciones y comunes. Trabajar con un sistema simulado tiene varias
Tratamiento de la señal de Enginyeria i Arquitectura La ventajas. La primera es que permite evitar la complejidad y
Salle lleva varios años desarrollando un locutor Virtual [1]. el tiempo de diseño de todo un corpus de diálogo. Por otro
Un interfaz hombre – máquina que fusiona el procesamiento lado, el análisis de un corpus sesga el resultado final a la
del habla con una parte gráfica que genera un mensaje estrategia que se siguió para diseñar ese corpus en particular.
audiovisual a partir de un texto de entrada. Este trabajo Por último, diseñar el diálogo es una tarea a posteriori y en
tratará de proporcionar al locutor un sistema orientado a la consecuencia no puede depender de un corpus.
comunicación con el usuario mediante la gestión de los
diálogos. II. SISTEMA DE DIÁLOGO
ASR NLU
Locutor Nivel intenciones Las sesiones de diálogo son un proceso secuencial entre
Virtual Nivel señal Nivel palabras
dos interlocutores definido como un proceso de decisión de
Gestor de
diálogo
Markov en términos de espacio de estados, espacio de
Usuarios acciones y refuerzo. El objetivo será encontrar la estrategia
BBDD
óptima que minimice el refuerzo total en la sesiones de
TTS NLU
diálogo.
Fig. 1. Estructura del sistema de diálogo propuesto.
Tanto las transiciones entre estados como el modelo del
refuerzo por transición están probabilísticamente modeladas
El diseño automático de las estrategias de diálogo y se cumple la propiedad de Markov de primer orden. El
presentado en este trabajo está inspirado en la propuesta de proceso cambiará de estado de acuerdo únicamente con el
Levin y Pieraccini [2]. La idea principal es modelar los estado en el que se encuentre en el instante t (st) y la acción
sistemas de diálogos como transiciones entre estados y tomada en ese mismo estado (at). El refuerzo en cada
tratarlo como un proceso de decisión de Markov. De esta transición (rt) también depende exclusivamente del estado y
forma, el diseño del diálogo se resume en optimizar los de la acción tomada en ese estado.
estados finitos mediante el aprendizaje reforzado y un P(st +1 st , at , st −1 , at −1 ,K , s0 , a0 ) = P(st +1 st , at ) (1)
P(rt s t , at , st −1 , at −1 ,K , s 0 , a 0 ) = P (rt st , at )
escenario virtual. (2)
I. MODELIZACIÓN DEL ESCENARIO
A. Formalización del diálogo
Nuestro modelo simulado continuará la idea inicialmente
La definición del diálogo en los procesos de decisión de propuesta por [4,5] en la que se simulan diferentes
Markov necesita establecer las siguientes consideraciones. componentes de un sistema de diálogo por separado.

El espacio de estados describe el diálogo para cada


Modelo: ASR / NLP Modelo de usuario
instante de tiempo (st). Ésta información ha de ser ot at
descriptiva y linealmente independiente para cumplir la Objetivo Memoria
propiedad de Markov de primer orden. El espacio de
acciones hace referencia a aquellas acciones que el sistema
Agente
permite realizar a cada instante (at). Éstas dependen del nivel st Æ st+1
de detalle y suelen ser respuestas, preguntas o consultas a rt
bases de datos. La función de refuerzo indica la bondad de la
acción llevada a cabo para el conjunto de la sesión. El Fig. 3. Modelo del sistema simulado para el aprendizaje.
refuerzo total de un diálogo completo se puede expresar
como la suma de todas las señales obtenidas en la sesión de Entre los componentes más importantes destacan el
diálogo hasta su finalización en Tf (ec. 3). La estrategia modelo del usuario, el comportamiento del reconocedor y
óptima π debe minimizar el refuerzo total (ec. 4). del analizador del lenguaje natural. El modelo del usuario se
Tf

Rsd = ∑ rt (3) basa en una aproximación probabilística de comportamiento


t =0 [7] e incluye además un objetivo fijo y una memoria de la
min (E [Rd ]) (4) sesión. El principal problema reside en proporcionar unas
probabilidades concretas.
B. Función de refuerzo
A diferencia de otros modelos simulados [4,5,7], la
El refuerzo obtenido en cada iteración debe ser propuesta de este trabajo está orientada al aprendizaje y no
representativo de la información que el diseño tiene que ha representar de manera exacta un escenario. Con este
optimizar. Se han realizado varias propuestas para esta objetivo el aprendizaje no se sesga en conductas concretas
función [4,5]. El principal problema es decidir qué sino que el sistema tiene un comportamiento genérico. En
características ponderar y qué importancia subjetiva se le consecuencia, el comportamiento del usuario en relación con
asocia a cada una. El modelo propuesto en este trabajo los atributos tiene que ser equiprobable (por ejemplo,
pondera variables objetivas comunes en todos los diálogos P(A)=1/N probabilidad de referirse a un atributo A donde N
como son la longitud y los errores cometidos. es el total de atributos).
Tf
Rd = −∑ N t − ∑ Ei ·wi · Ai − ∑ Ei ·k i ·M i (5) Por otro lado, se distinguen dos tipos de probabilidades
t =0 i i
que definen el comportamiento de la estrategia final. Las
probabilidades que cumplen 0.5<P<1 se asocian a acciones
La ecuación (5) incluye tres conceptos. El primer que el sistema debe aprender (por ejemplo, que el usuario
sumatorio hace referencia al refuerzo total que se obtiene por proporcione varios atributos como respuesta a una pregunta
sesión. Los dos términos siguientes controlan la finalización abierta del sistema). Por el contrario, las probabilidades
de la tarea. El segundo sumatorio controla las acciones no dentro del margen 0<P<0.5 son aquellas que se asignan a
realizadas (ej. No realizar la confirmación de los datos) y el situaciones que pueden suceder en el diálogo pero que el
último controla los estados del diálogo con error (ej. no diseñador no quiere que se reflejen a la estrategia final (por
obtener la información de una variable). ejemplo, que el usuario proporcione un atributo por el que
no se le ha preguntado).
La principal característica de esta función de refuerzo es
que está dominada por la existencia del error (parámetro Ei). III. APRENDIZAJE AUTOMÁTICO
Su objetivo principal es distinguir entre estrategias erróneas
y poco óptimas. Por ello, la función de refuerzo debe A. Introducción
distinguir los errores por encima de la peor longitud de la
sesión E[NTf] y por lo tanto se propone considerar C >> El aprendizaje automático de las estrategias de diálogo se
E[NTf].
basa en la interacción de un agente virtual inteligente con un
⎧ 1 ∀i sin error entorno simulado (libre de modelo) en un número de
Ei = ⎨ (6)
⎩C ∀i con error sesiones determinado. Mediante prueba y error se realimenta
un refuerzo al agente que le permite ponderar la bondad de
Los factores w y k ponderan la importancia de un error las acciones que está tomando (fig 4a). El objetivo
frente a otro. La propuesta de este trabajo fija estos factores primordial es optimizar la función de refuerzo mediante la
en w,k≥1. Como veremos en el apartado III existen ciertos actualización del aprendizaje representado por la matriz Q
errores a los cuales se les suele asignar mayor importancia. (fig. 4b) formada por el par estado – acción. Cada estado
tiene asociadas varias acciones y una de ellas es la más
favorable [6].
[
Q ( s , a ) = Q ( s , a ) + α r + γQ ( s ' , a ' ) − Q ( s , a ) ] (8)
Estado(t+1) Medio
Para mejorar el proceso de aprendizaje se ha aplicado las
si a0 a1 ... aN
Agente trazas elegibles que permiten no sólo actualizar el estado –
Acción(t)
Refuerzo(t+1) acción actual del agente sino todos los demás. La traza
elegible para el estado s y la acción a se expresa como e(s,a)
Fig. 4. (a) Entorno de aprendizaje (b) Q matriz de aprendizaje, e informa de cómo de fuerte se asume la conexión causal
relación estado acciones.
entre el estado actual y el estado anterior. La traza para un
El mayor problema del aprendizaje reforzado es estado visitado se incrementa. Para el resto de estados
encontrar el equilibrio entre exploración (proceso de decaerá en un factor γλ.
investigación de todas las posibles soluciones para no caer ⎧γλe ( s, a ) + 1 s = st , a = at
en mínimos locales) y la explotación (usar y fijar una et ( s, a ) = ⎨ t −1 (9)
⎩ γλet −1 ( s, a ) ∀s, a
conducta determinada del agente).
IV. EXPERIMENTOS
B. Automatización del aprendizaje
A continuación se presentan una serie de experimentos
Para facilitar el aprendizaje es necesario automatizar el
para demostrar el aprendizaje de las estrategias de diálogo
proceso a partir del cual el agente fija la conducta e inhibe la
óptimas. Los resultados presentan la configuración de los
exploración. La automatización depende de dos factores: el
parámetros para demostrar las ventajas de los sistemas de
factor de aprendizaje (α) y la probabilidad de exploración
simulación frente a los sistemas basados en corpus.
(ε). Para controlar la exploración se propone hacer decrecer
ε exponencialmente ε = e (b1Sesiones+b2 ) en el rango [0.1,0) [6]. La primera prueba pretende comprobar la bondad del
A partir del 10% de su valor inicial 0.1, se considera que la sistema de aprendizaje. El espacio de estados y el espacio de
exploración deja paso a la explotación. Se entiende por acciones presentan un sistema de iniciativa máquina de
Sesiones el número de diálogo totales en los que se realiza el ventas de tiques de tren. El sistema tiene que aprender la
aprendizaje. La sesión a partir de la cuál deseamos explotar estrategia siguiente: preguntar por los datos que le faltan y al
la conducta aprendida la definimos como ep. Teniendo en final realizar una confirmación. El espacio de estados se
cuenta los valores inicial y final de la exponencial podremos define como [origen, destino, confirmación] y el espacio de
fijar el valor de las variables b1 y b2. acciones como [Saludo, PreguntarOrigen, PreguntarDestino,
Confirmar, Salir]
Para garantizar la convergencia en entornos estacionarios
se deben cumplir las condiciones de exploración del La función de refuerzo será un caso particular de la
aprendizaje reforzado [6]. Primero, tiene que existir propuesta presentada (ec. 5) donde Np es el número de pasos
suficiente exploración para garantizar en el límite que cada realizados en la sesión de diálogo, We la ponderación del
par estado – acción se visite un número muy elevado de error y Ne el número de errores cometidos.
veces. Segundo, el factor de aprendizaje debe ser Rt=-Np-We·Ne (10)
incremental. Estas dos condiciones se satisfacen siempre que
0<α<1 y que αk(s,a) decrezca a medida que aumenta el El aprendizaje muestra los valores de los factores de
número de sesiones k. El mejor comportamiento se define en aprendizaje y exploración del sistema. La exploración se
[6] como: detiene cuando el refuerzo converge a 1, lo cual indica que
α k ( s, a ) = 1 k (7) ya se ha aprendido la estrategia óptima del diálogo.

C. Algoritmo Sarsa On-policy


Estado Acción
Sarsa es un método de aprendizaje orientado al control [0 0 0 0] Salutación
[1 0 0 0] Preguntar
de las acciones basado en diferencias temporales. Además, origen/destino
es incremental porque actualiza el aprendizaje a cada [1 0 1 0] Preguntar origen
[1 1 0 0] Preguntar destino
instante de una misma sesión [6]. [1 1 1 0] Confirmar
[1 1 1 1] Salir

Los sistemas on-policy actualizan su matriz Q en base a


la conducta π y a la vez actualizan la misma conducta de Episodio

acuerdo con el valor más favorable de Q para el estado Fig. 5. (a) Estrategia aprendida. (b) Evolución del refuerzo.
siguiente. Se cumple que el sistema Sarsa converge con La segunda prueba es el diseño de un sistema de venta de
probabilidad 1 a la conducta óptima siempre y cuando se entradas de cine con el siguiente espacio de estados.
cumplan las condiciones de exploración.
La actualización del aprendizaje se basa en la (ec. 9) Atributos Posibles valores
donde se tiene en cuenta el factor de aprendizaje (α), el Título,hora,cine,numerada {conocido, no conocido}
refuerzo para la transición actual (r) y la diferencia entre el BBDD {buscado, no buscado}
aprendizaje actual Q(s,a) y el aprendizaje del siguiente CL {alto, bajo}
ValoresPorConfirmar {0,...,3}
estado elegido representado como Q(s’,a’). Relajación {verdadero, falso}
Los parámetros más importantes se configuran como
sigue. Por un lado, del modelo simulado se destaca la
probabilidad de que se cometa un error P(E)=0.2 y la
probabilidad del usuario de proporcionar más de un atributo

Refuerzo
al recibir la salutación del sistema P(J/S)=0.8. El error se fija
a C=25 dada la longitud esperada de nuestro sistema. Los
factores de importancia del error son:
⎧ 4 si acción = DATOS

wi = ⎨0 si acción = C i CL = bajo (11)
⎪ 1 para el resto de acciones

Episodio

Fig. 8. Evolución del refuerzo en un modelo modificado.

La importancia de acceder a la base de datos se pondera


cuatro veces superior respecto de las demás acciones. CONCLUSIONES
Además, se condiciona la confirmación a que actúe cuando En este trabajo se ha desarrollado un entorno para el
el nivel de confidencialidad del reconocedor sea bajo. aprendizaje automático de estrategias de diálogo con el
objetivo de facilitar y agilizar su diseño. El modelo simulado
permite desarrollar sistemas desde cero con la intervención
mínima del diseñador y proporciona una serie de
herramientas para su configuración. La consideración de
modelo simulado incluye la propuesta de diversos tipos de
probabilidades que de manera fácil ponderan las diversas
acciones. Los elementos más importantes del aprendizaje
son los espacio de estados, espacio de acciones y la función
de refuerzo. Cuanto más descriptivo sean los estados del
sistema más realista será la estrategia a aprender y mejor
convergerá el aprendizaje. El refuerzo nos marcará la
dirección de optimización de la estrategia. Se ha propuesto
Fig. 6. (a) Evolución refuerzo. (b) Ampliación zona estable. además una serie de parámetros objetivos a medir y unas
reglas para fijar los más importantes.
La evolución del refuerzo por episodio tiene una fase de
exploración y una fase de explotación. Como podemos
Los resultados demuestran que es posible realizar el
observar, el refuerzo converge a los valores de estrategia
aprendizaje no supervisado de las estrategias de diálogo y
óptima. Diferentes refuerzos para estrategias que responden
que los parámetros permiten sistemas configurables. A partir
a diálogos diferentes. Concretamente, un refuerzo de -3 hace
de este aprendizaje es posible aplicar a estos sistemas una
referencia a un diálogo en el que el usuario proporciona
mejora mediante la interacción con usuarios reales
todos los datos como respuesta a la salutación del sistema
(PARADISE [8]) o aplicar las últimas tendencias en las
(pregunta abierta). El peor caso -10, es un diálogo en el que
tecnologías del habla como por ejemplo, el VoXML [4].
el sistema se ve obligado a preguntar uno a uno todos los
atributos porque el usuario colabora lo mínimo.
HOLA
REFERENCIAS
Sí [1] J. Melenchón, F. Alias, I. Iriondo. “PREVIS: a Person-Specific
Cerrar
n atrib P(atributo)
BBDD Datos? Realistic Virtual Speaker”, IEEE International Conference on
No Multimedia and Expo (II) 2002, Lausanne, Switzerland.
Relajación
[2] E. Levin, R. Pieraccini. “A Stochastic Model of Computer-Human
Interaction for Learning Dialogue Strategies”. (Eurospeech’97),
Rhodes, Greece, 1997, pp. 1883-1886.
Error? C(Atributos) BBDD
[3] E. Levin, R. Peraccini, W. Eckert. “Using Markov Decision Process for
Sí No Learning Dialogue Strategies”. (ICASSP’98), vol. 1, Seattle, US, May
Datos? 1998, pp 201-204.
[4] O. Pietquin, T. Dutoit, “Aided Design of Finite-State Dialogue
Fig. 7. Estrategia aprendida. Management Systems“. (ICME’03), Baltimore, july 2003.
[5] K. Scheffler, S. Young. “Automatic Learning of Dialogue Strategy
Para un modelo diferente en el que modificamos la using Dialogue simulation and Reinforcement Learning”.In Proceeding
probabilidad del usuario en proporcionar más de un atributo of Human Language Technology 2002, San Diego, pp. 12-18.
P(J/S)=0.1 vemos como el refuerzo total por episodio se [6] R. Sutton, A. Barto. “Reinforcement Learning: An introduction”.
Cambridge, MA: MIT Press, 1998. ISBN: 0-262-19398-1.
mueve en [-6,-10] porque el usuario no colabora en la [7] W. Eckert, E. Levin, R. Pieraccini. “User modelling for Spoken
mayoría de casos en la iniciativa mixta. En consecuencia, la Dialogue System Evaluation”. (ASRU’97), 1997, pp 80-87.
estrategia del diálogo se sesga a una iniciativa máquina. [8] M.Walker, D. Litman, C. Kamm, A. Abella. “PARADISE: A
Framework for Evaluating Spoken Dialogue Agents”. In Proceedings
of the 35th Annual Meeting of the Association for Computational
Linguistics, Madrid, Spain, 1997, pp. 271-280.

También podría gustarte