Documentos de Académico
Documentos de Profesional
Documentos de Cultura
com
39 * 61 * 46 54
Figura 11: Auto-chat ACUTE-Eval (participación) muestra Figura 13: Auto-Chat AGUDO-Evaluar (participación)
una ganancia significativa (p < 0.05) para el ajuste fino de MLE vs. Entrenamiento de improbabilidad (penalización
las tareas BST. presionado norte-gramos). El resultado no es estadísticamente
significativo (165 ensayos).
Ganar %
Figura 12: Auto-chat ACUTE-Eval (participación) muestra una Generativo 71 ∗ 44 ∗
pequeña ganancia (no significativa) para usar contextos de
RetNRef 70 ∗ 56 ∗
persona después de ajustar las tareas de BST.
Figura 14: Human-bot ACUTE-Eval (participación): Recuperar y
refinar (α = 0.5) y Recuperación de batidos generativa (90M,
Comparamos dos modelos que son idénticos decodificación de búsqueda de haz, tamaño mínimo de haz 20)
excepto por el objetivo formativo: ambos modelos son (256M). Todos los resultados son significativos (p < 0.01)
2.7B parámetros, BST ajustados con nuestra mejor configuración excepto RetNRef vs. Generative.
de decodificación elegida. Los resultados (Figura13) tienen una
pequeña ganancia frente al modelo de verosimilitud, pero esto no
restricción de longitud. Esto hace que los modelos generativos
es estadísticamente significativo.
superen ahora al modelo de recuperación, pero también
10.3 Evaluaciones completas (chat humano-bot) elimina las ganancias de recuperar y refinar sobre el modelo
generativo. Observamos que si eliminamos la restricción de
La sección anterior comprendía evaluaciones por pares de humanos
longitud mínima del haz tanto en recuperar y refinar como en
para realizar la selección del modelo, pero incluía conversaciones
el modelo generativo y recopilamos nuevos chats humanos-
personales, no conversaciones entre humanos y robots. En esta sección
bot, y un ACUTE-Eval por pares, obtenemos que RetNRef tiene
tomamos los aprendizajes de esas evaluaciones y evaluamos algunas de
una mejora estadísticamente significativa sobre nuestro
las mejores opciones de modelo en nuestra configuración completa de
modelo generativo.
evaluación de robots humanos.
(p < 0.001).
Para la recopilación de datos de conversaciones entre
humanos y robots, utilizamos la misma configuración propuesta Comparación con Meena Comparamos nuestros modelos con
en (Adiwardana y col., 2020): chat abierto que comienza con el Meena (Adiwardana y col., 2020) comparando por pares con
mensaje "¡Hola!" desde el humano hasta el bot, y tiene una los registros disponibles públicamente. Observamos que solo
duración mínima de conversación interactiva de 14 turnos, y algunos de los registros estaban disponibles, ya que se
recopila 100 conversaciones por modelo a través de los eliminaron algunas conversaciones tóxicas, lo que puede
trabajadores colectivos. No aplicamos un clasificador de seguridad afectar las evaluaciones, pero usamos todos los registros que
a nuestros modelos, pero lo aplicamos a las respuestas humanas y están disponibles públicamente. Los comparamos con varias
eliminamos las conversaciones de los trabajadores digitales que se variantes de nuestros modelos, utilizando tanto las preguntas
marcaron. de participación como de humanidad. Los resultados se dan
en figuras15 y dieciséis. Primero observamos varios resultados
Recuperación frente a generador frente a RetNRef Realizamos
que están en línea con los resultados de selfchat de la sección
una evaluación (pregunta de participación) similar a la versión
anterior:
de chat personal de Figure 6, excepto en el uso de
conversaciones entre humanos y robots, y los modelos (i) El uso de BST (BST Generative 2.7B) es superior al
generativo y RetNRef aquí usan las opciones de decodificación preentrenamiento solamente (pushshift.io Reddit
mejoradas. Esto da como resultado una generación más sólida Generative 2.7B)
y modelos RetNRef, que ahora superan al método de
recuperación, consulte la Figura14. (ii) La búsqueda de haz con una longitud de haz
La principal diferencia con nuestros experimentos iniciales mínima de 20 (BST Generative 2.7B) es superior a
de auto-chat (Figura 6) es que nuestra decodificación ahora no tener una longitud mínima (BST Generative
genera respuestas más largas usando un haz mínimo (2.7B) estándar de haz)
Nuestro contra Meena Nuestro contra Meena
BST Generativo (2.7B) estándar. haz 50 50 BST Generativo (2.7B) estándar. haz 46 54
pushshift.io Reddit Generative (2.7B) 53 47 BST RetNRef (256M / 90M) 49 51
BST RetNRef (256M / 90M) 60 ∗ 40 ∗ pushshift.io Reddit Generative (2.7B) 56 44
BST Generativo∗ (90M) 61 ∗ 39 ∗ BST Generative (90M) 59 41
Wiz Generative (2.7B) 61 ∗∗ 39 ∗∗ Wiz Generative (2.7B) 59 * 41 *
Probabilidad de BST (2.7B) 64 ∗∗ 36 ∗∗ BST RetNRef (622M / 2.7B) sesenta y cinco ∗∗ 35 ∗∗
Generativo de BST (9.4B) 67 ∗∗ 33 ∗∗ BST Generativo (2.7B) sesenta y cinco ∗∗ 35 ∗∗
BST RetNRef (622M / 2.7B) 70 ∗∗ 30 ∗∗ BST generativo (9.4B) 66 ∗∗ 34 ∗∗
BST Generativo (2.7B) 75 ∗∗ 25 ∗∗ Probabilidad de BST (2.7B) 70 ∗∗ 30 ∗∗
nuestro modelo 2.7B, a pesar de tener una menor perplejidad, mediante la comparación de registros de robots humanos con registros de
humanos humanos. Filas con∗∗ son estadísticamente significativas.
mostrar la correlación entre estas métricas no es sencillo.
Verificamos este resultado aún más al realizar una evaluación
AGUDA de participación comparando directamente el 2.7B y el 9.4B
entre sí, lo que resultó en una victoria del 56% para el modelo más
pequeño, alineándose con los otros resultados. El trabajo futuro un barómetro más desafiante para comparar nuestros
debería tener como objetivo comprender mejor este resultado. modelos.
Figura 19: Ejemplos de trabajadores colectivos seleccionados con precisión. Dos conversaciones entre diferentes trabajadores de la red (altavoces
izquierdos) y el modelo Generative BST 2.7B (altavoces derechos).
dos personas de línea siguiendo BST (ver figura 3), pero esto cree que se puede exponer más al sondear el modelo. Si
debería ser mucho más detallado para cubrir todos los casos bien algunos trabajos recientes han propuesto posibles
posibles, por lo que no está claro si es una solución soluciones para estos problemas (Li y col., 2019a), aún no
satisfactoria. Quizás una forma de rastrear esto sería se han resuelto por completo.
preguntar a los evaluadores humanos si el bot está siguiendo
Conocimiento y exactitud de los hechos En nuestra
a su persona, ya que es poco probable que la configuración de
experiencia, en realidad es relativamente fácil incitar a
evaluación actual penalice este comportamiento de imitación.
nuestros modelos a cometer errores fácticos. Quizás
Contradicción y olvido Nuestros modelos ocasionalmente sorprendentemente, aparecen relativamente raramente en las
se contradicen, ver figura23, aunque observamos que esto conversaciones de los trabajadores colectivos con los bots.
ocurre con menos frecuencia en los modelos más grandes. Creemos que esto se debe a la naturaleza de la evaluación
Creemos que debido a la naturaleza del modelado del realizada: las conversaciones comienzan con "¡Hola!" y tienden
lenguaje, los patrones típicos del lenguaje no contienen a cubrir solo temas superficiales en los que los oradores se
contradicciones, pero probar el modelo con respuestas conocen entre sí, y rara vez son lo suficientemente largos
inusuales probablemente expondría este comportamiento como para profundizar en un tema. Explorar un tema de
nuevamente. Un segundo problema relacionado es lo que conversación más enfocado probablemente expondría las
aparece como “olvido” para el observador humano, donde, debilidades del modelo. Por el contrario, parece que el modelo
por ejemplo, le dices al modelo que tienes un perro, pero es bueno para esquivar este problema. Observamos que
luego, más adelante en la conversación, te pregunta qué nuestros modelos a menudo cambian de tema, evitando el
mascotas tienes. Este fenómeno se puede atribuir al hecho desafío de profundizar más, lo que podría ser un efecto
de que el modelo no logra establecer el vínculo lógico de secundario del conjunto de datos ConvAI2 que muestra este
que no debería hacer esa pregunta, en lugar de que el comportamiento. Sin embargo, el conjunto de datos del
modelo realmente “olvide” (si la respuesta anterior está en Asistente de Wikipedia no muestra este comportamiento, y su
su contexto de diálogo). relativamente raramente, pero construcción estaba destinada específicamente a evitarlo.
nosotros Implementamos un modelo que incorporó directamente
Crowdworker BST generativo 2.7B Crowdworker BST generativo 2.7B
Figura 20: Ejemplos de trabajadores colectivos seleccionados con precisión. Cuatro conversaciones entre diferentes trabajadores de la red (altavoces
izquierdos) y el modelo Generative BST 2.7B (altavoces derechos).
Autor del artículo BST generativo 2.7B Autor del artículo BST generativo 2.7B
Figura 21: Ejemplos de autores seleccionados. Conversaciones del autor del artículo (orador izquierdo) con el modelo Generative BST 2.7B
(orador derecho).
leyendo Wikipedia (Wiz Generative 2.7B, Sec 2.3), y miembros de conversaciones anteriores. Nuestras
anecdóticamente se pueden encontrar casos en los que se puede arquitecturas generativas, que son Transformers estándar,
emplear el conocimiento que el modelo puro de secuencia a tienen un límite estricto de 128 tokens BPE de historia, por
secuencia no puede, ver Figura 24. Desafortunadamente, la lectura lo que no es posible ampliar las cosas que han aprendido
de conocimientos solo tuvo un impacto negativo en ACUTE-Evals de o sobre el usuario, hacer referencia a cosas anteriores
en comparación con un modelo de tamaño similar sin recuperación que dijeron, etc. Si bien varios trabajos recientes han
de conocimientos, consulte la Figura17. Creemos que esto se debe ampliado las arquitecturas neuronales poseer contextos
a una combinación de (i) un conocimiento más profundo que rara más largosDai y col., 2019; Rae y col., 2020; Kitaev y col.,
vez se requiere en la configuración de evaluación actual; y (ii) el 2020;Beltagy y col., 2020), no las hemos implementado ni
modelo intenta usar el conocimiento cuando no es necesario, o lo creemos que la configuración de evaluación actual sea la
usa incorrectamente. Los verdaderos agentes de diálogo de adecuada para medir su éxito.
dominio abierto deberían poder utilizar el conocimiento de forma
eficaz y, para lograrlo, tenemos que poder medirlo de forma eficaz. Comprensión más profunda Finalmente, si bien nuestros
modelos parecen charlar con cierto grado de efectividad,
su capacidad para comprender verdaderamente debe ser
Duración y memoria de la conversación Nuestra evaluación cuestionada. Los casos de falla de contradicción y olvido
actual implica conversaciones onehot muy cortas (14 turnos). también enfatizan esto, pero damos ejemplos de casos de
Nuestros bots probablemente serían repetitivos y aburridos en falla más profundos en la Figura25. En los ejemplos, los
el transcurso de varios días o semanas de conversación, como autores de este artículo intentan preguntarle al bot si
se describió anteriormente, y actualmente también son puede entender dos juegos de palabras. El primero
completamente incapaces de volver a requiere comprender la conexión semántica entre
norte-grama de improbabilidad de MLE humano Humano BST generativo 2.7B
Tiene 110 60 6
tienes algún 82 46 2
mucho 74 46 14
Qué es lo que tú 57 20 6
te gusta 54 43 1
Que tipo de 45 41 4
te gusta 44 33 6
gustaría hacer 42 28 0
mucha diversión 39 18 0
lo haces 38 14 6
me gusta 36 9 2
Eso suena como 36 37 0
usted tiene un 34 15 5
tienes algún pasatiempo 34 22 0
suena como un 33 35 4
primeros trabajos en esta dirección. Además, estos oscuridad larga y el bosque son juegos de supervivencia, pero
no por los mismos autores).
modelos, que son incorpóreos, tampoco tienen forma de
conectarse con entidades, acciones y experiencias en el
mundo, lo que también podría atrofiar sus habilidades (
mismo modelo BST generativo 2.7B, pero no vio una diferencia
Bisk y col., 2020). VerUrbanek y col. (2019); Prabhumoye y
estadísticamente significativa, lo que indica que necesitan ser
col. (2020) para otros trabajos de algunos de los autores
más largos o que toda la conversación debe evaluarse de una
que conectan modelos de diálogo con entornos ricos.
vez. Si se requiere lo último, esto se vuelve difícil para un
anotador humano que no participó en la conversación en sí, ya
Notas adicionales sobre evaluación Varios de los puntos que el material a evaluar será muy grande, por lo que nuestra
anteriores plantearon cuestiones relativas a nuestro protocolo configuración actual no funcionará. Otra posibilidad es
de evaluación. Nuestra configuración implica conversaciones mantener las conversaciones breves, pero en su lugar
breves de varios turnos sin instrucciones. Extender la duración proporcionar instrucciones. Por ejemplo, la tarea del Asistente
debería exponer más debilidades; sin embargo, recopilar de Wikipedia (Dinan y col., 2019c) pide a los oradores que
conversaciones largas con los trabajadores de la plataforma es conversen en profundidad sobre un tema elegido al azar,
claramente difícil y no está claro cuántos turnos sería una cambiando la naturaleza de las conversaciones y, por lo tanto,
prueba suficiente. Probamos un experimento preliminar de las habilidades sobre las que se evaluará el modelo.
Bueno, Harvard es una escuela para humanos y los caballos comen heno ...
Si lo sé. Pero, ¿qué tiene eso que ver con la broma? Estoy tan
confundida.
Veo. Bueno, al menos hoy aprendí algo nuevo. ¡Qué tengas un lindo
día!
¿Qué aprendiste?
No estoy seguro, pero me alegro de que así fuera. Amo los museos. ¿A qué te
Humano Wiz Generative 2.7B dedicas?
Oh, lo siento. No lo entendí. ¿Qué tipo de broma fue? Me gustan las bromas.
Si. Los hongos son hongos y "hongos" se pronuncia como "chico divertido".
Figura 24: Ejemplos de problemas creados por autores de ¿Estás seguro de que lo entiendes? Me lo puedes explicar?
artículos con nuestro modelo Generative BST 2.7B: Seguro. Es un juego con la palabra hongo, que también se pronuncia chico divertido.
ejemplos). Wojciech Zaremba es un investigador de IA Me alegro de que pudiéramos llegar a un acuerdo. ¡Que tengas un gran día, chico divertido!