Documentos de Académico
Documentos de Profesional
Documentos de Cultura
natural y la inteligencia artificial. Aunque Actas de la 31st Conferencia Internacional sobre Aprendizaje
existen enfoques anteriores, a menudo se limitan Automático, Lille, Francia, 2015. JMLR: W&CP volumen 37.
Copy-right 2015 por el/los autor/es.
a ámbitos específicos (por ejemplo, la reserva de
un billete de avión) y requieren reglas
elaboradas a mano. En este artículo,
presentamos un enfoque sencillo para esta tarea
que utiliza el marco secuencia a secuencia
propuesto recientemente. Nuestro modelo
predice la frase siguiente a partir de la frase o
frases anteriores de una conversación. El punto
fuerte de nuestro modelo es que puede
entrenarse de principio a fin y, por tanto,
requiere muchas menos reglas elaboradas a
mano. Hemos comprobado que este sencillo
modelo puede generar conversaciones sencillas
a partir de un gran conjunto de datos de
entrenamiento conversacional. Nuestros
resultados preliminares sugieren que, a pesar de
haber optado por una función objetivo
incorrecta, el modelo es capaz de extraer
conocimiento tanto de un conjunto de datos de
un dominio específico como de un gran
conjunto de datos de subtítulos de películas de
un dominio general y ruidoso. En un conjunto
de datos de un servicio de asistencia informática
específico, el modelo puede encontrar una
solución a un problema técnico a través de
conversaciones. En un conjunto de datos de
transcripciones de películas de dominio abierto
y ruidoso, el modelo puede realizar formas
sencillas de razonamiento de sentido común.
Como era de esperar, también observamos que
la falta de coherencia es un fallo común de
nuestro modelo.
1. Introducción
Los avances en el entrenamiento integral de redes
neuronales han propiciado notables progresos en muchos
ámbitos, como el reconocimiento del habla, la visión por
estructuras complicadas a otras estructuras complicadas.
Un ejemplo de ello es la tarea de asignar una secuencia a
otra secuencia, que tiene aplicaciones directas en la
comprensión del lenguaje natural (Sutskever et al., 2014).
Una de las principales ventajas de este marco es que
requiere poca ingeniería de características y especificidad
de dominio, al tiempo que iguala o supera los resultados
del estado del arte. Este avance, en nuestra opinión,
permite a los investigadores trabajar en tareas para las
que el conocimiento del dominio puede no estar
fácilmente disponible, o para tareas que son simplemente
demasiado difíciles de modelar.
El modelado conversacional puede beneficiarse
directamente de esta for- mulación, ya que requiere un
mapeo entre las consultas y las respuestas. Debido a la
complejidad de este mapeo, el modelado conversacional
se ha diseñado hasta ahora con un dominio muy limitado,
y se ha centrado principalmente en el diseño de
características. En este trabajo, experimentamos con la
tarea de modelado de la conversión convirtiéndola en una
tarea de predicción de la siguiente secuencia dada la
secuencia o secuencias anteriores mediante redes
recurrentes (Sutskever et al., 2014). Descubrimos que
este enfoque puede funcionar sorprendentemente bien a
la hora de generar respuestas fluidas y precisas a las
conversaciones.
Probamos el modelo en sesiones de chat de un conjunto
de datos de conversaciones de un servicio de asistencia
informática y comprobamos que, en ocasiones, el modelo
puede rastrear el problema y ofrecer una respuesta útil al
usuario. También experimentamos con conversaciones
obtenidas de un conjunto de datos ruidosos de subtítulos
de películas, y descubrimos que el modelo puede
mantener una conversación natural y, en ocasiones,
realizar formas sencillas de razonamiento de sentido
común. En ambos casos, las redes recurrentes obtienen
una mejor perplejidad en comparación con el modelo de
n-gramas y capturan importantes cor- relaciones de largo
alcance. Desde un punto de vista cualitativo, nuestro
modelo a veces es capaz de producir conversaciones
naturales.
2. Trabajos relacionados
Nuestro enfoque se basa en trabajos recientes que
proponen utilizar redes neuronales para asignar
secuencias a secuencias (Kalchbrenner y Blunsom, 2013;
Sutskever y otros, 2014; Bahdanau y otros, 2014). Este
marco se ha utilizado para la traducción automática
neuronal y logra im-
Un modelo conversacional
neuronal
en las tareas de traducción inglés-francés e inglés-alemán a "WXYZ", como se muestra en la figura 1.
del conjunto de datos WMT'14 (Luong et al., 2014; Jean
et al., 2014). También se ha utilizado para otras tareas,
como el análisis sintáctico (Vinyals et al., 2014a) y el
subtitulado de imágenes (Vinyals et al., 2014b). Como e s
bien sabido que las RNN de vainilla sufren gradientes de
fuga, la mayoría de los investigadores utilizan variantes
de la red neuronal recurrente de memoria a largo plazo
(LSTM) (Hochreiter y Schmidhuber, 1997).
Nuestro trabajo también se inspira en el reciente éxito del
modelado neu- ral del lenguaje (Bengio et al., 2003;
Mikolov et al., 2010; Mikolov, 2012), que demuestra que
las redes neuronales recurrentes son modelos bastante
eficaces para el lenguaje natural. Más recientemente, los
trabajos de Sordoni et al. (Sordoni et al., 2015) y Shang et
al. (Shang et al., 2015), utilizaron redes neuronales
recurrentes para modelar el diálogo en conversaciones
cortas (entrenadas en chats tipo Twitter).
La creación de bots y agentes conversacionales ha sido
objeto de estudio por parte de muchos investigadores en
las últimas décadas, y no es el o b j e t i v o de este artículo
proporcionar una lista exhaustiva de referencias. Sin
embargo, la mayoría de estos sistemas requieren un
proceso bastante complicado de muchas etapas (Lester et
al., 2004; Will, 2007; Jurafsky y Martin, 2009). Nuestro
trabajo se diferencia de los sistemas convencionales al
proponer un enfoque integral del problema que carece de
conocimiento del dominio. En principio, podría
combinarse con otros sistemas para volver a puntuar una
lista corta de respuestas can- didatas, pero nuestro trabajo
se basa en producir respuestas dadas por un modelo
probabilístico entrenado para maximizar la probabilidad
de la respuesta dado cierto contexto.
3. Modelo
Nuestro enfoque utiliza el modelo de secuencia a
secuencia (seq2seq) descrito en (Sutskever et al., 2014).
El modelo se basa en una red neuronal recurrente que lee
la secuencia de entrada de uno en uno y predice la
secuencia de salida, también de uno en uno. Durante el
entrenamiento, el modelo recibe la secuencia de salida
real, por lo que el aprendizaje puede realizarse por
retropropagación. El modelo se entrena para maximizar la
entropía cruzada de la secuencia correcta dado su
contexto. Durante la inferencia, dado que no se observa la
secuencia de salida verdadera, simplemente introducimos
el token de salida predicho como entrada para predecir la
siguiente salida. Se trata de un método de inferencia
"codicioso". Un enfoque menos codicioso sería utilizar la
búsqueda de haz, y alimentar varios candidatos en el paso
anterior al siguiente paso. La secuencia predicha puede
seleccionarse basándose en la probabilidad de la
secuencia.
En concreto, supongamos que observamos una
conversación con dos turnos: la primera persona pronuncia
"ABC", y otra responde "WXYZ". Podemos utilizar una
red neuronal recurrente y entrenarla para asignar "ABC"
Un modelo conversacional
neuronal
películas en formato XML. Contiene frases pronunciadas
por personajes de películas. Aplicamos un sencillo
procesamiento
4. Conjuntos de datos
En nuestros experimentos utilizamos dos conjuntos de
datos: un conjunto de datos de resolución de problemas
del servicio de asistencia informática de dominio cerrado
y un conjunto de datos de transcripción de películas de
dominio abierto. Los detalles de los dos conjuntos de
datos son los siguientes.
5. Experimentos
En esta sección describimos los resultados experimentales
con los dos conjuntos de datos. Presentamos una medida
bastante objetiva que es la perplejidad del modelo en el
conjunto de pruebas. También mostramos algunas muestras
de las interacciones con el sistema que hemos entrenado.