Está en la página 1de 8

Traducido del inglés al español - www.onlinedoctranslator.

com

Modelo generativo 2.7B Modelo BST 2.7B generativo


Solo preentrenamiento frente a ajuste fino de BST MLE vs improbabilidad

39 * 61 * 46 54

Figura 11: Auto-chat ACUTE-Eval (participación) muestra Figura 13: Auto-Chat AGUDO-Evaluar (participación)
una ganancia significativa (p < 0.05) para el ajuste fino de MLE vs. Entrenamiento de improbabilidad (penalización
las tareas BST. presionado norte-gramos). El resultado no es estadísticamente
significativo (165 ensayos).

Modelo BST 2.7B generativo Contexto de


la persona frente a ningún contexto Pérdida %

Retirado Gen RetNRef


53 47
Recuperación 29 ∗ 30 ∗

Ganar %
Figura 12: Auto-chat ACUTE-Eval (participación) muestra una Generativo 71 ∗ 44 ∗
pequeña ganancia (no significativa) para usar contextos de
RetNRef 70 ∗ 56 ∗
persona después de ajustar las tareas de BST.
Figura 14: Human-bot ACUTE-Eval (participación): Recuperar y
refinar (α = 0.5) y Recuperación de batidos generativa (90M,
Comparamos dos modelos que son idénticos decodificación de búsqueda de haz, tamaño mínimo de haz 20)
excepto por el objetivo formativo: ambos modelos son (256M). Todos los resultados son significativos (p < 0.01)
2.7B parámetros, BST ajustados con nuestra mejor configuración excepto RetNRef vs. Generative.
de decodificación elegida. Los resultados (Figura13) tienen una
pequeña ganancia frente al modelo de verosimilitud, pero esto no
restricción de longitud. Esto hace que los modelos generativos
es estadísticamente significativo.
superen ahora al modelo de recuperación, pero también

10.3 Evaluaciones completas (chat humano-bot) elimina las ganancias de recuperar y refinar sobre el modelo
generativo. Observamos que si eliminamos la restricción de
La sección anterior comprendía evaluaciones por pares de humanos
longitud mínima del haz tanto en recuperar y refinar como en
para realizar la selección del modelo, pero incluía conversaciones
el modelo generativo y recopilamos nuevos chats humanos-
personales, no conversaciones entre humanos y robots. En esta sección
bot, y un ACUTE-Eval por pares, obtenemos que RetNRef tiene
tomamos los aprendizajes de esas evaluaciones y evaluamos algunas de
una mejora estadísticamente significativa sobre nuestro
las mejores opciones de modelo en nuestra configuración completa de
modelo generativo.
evaluación de robots humanos.
(p < 0.001).
Para la recopilación de datos de conversaciones entre
humanos y robots, utilizamos la misma configuración propuesta Comparación con Meena Comparamos nuestros modelos con
en (Adiwardana y col., 2020): chat abierto que comienza con el Meena (Adiwardana y col., 2020) comparando por pares con
mensaje "¡Hola!" desde el humano hasta el bot, y tiene una los registros disponibles públicamente. Observamos que solo
duración mínima de conversación interactiva de 14 turnos, y algunos de los registros estaban disponibles, ya que se
recopila 100 conversaciones por modelo a través de los eliminaron algunas conversaciones tóxicas, lo que puede
trabajadores colectivos. No aplicamos un clasificador de seguridad afectar las evaluaciones, pero usamos todos los registros que
a nuestros modelos, pero lo aplicamos a las respuestas humanas y están disponibles públicamente. Los comparamos con varias
eliminamos las conversaciones de los trabajadores digitales que se variantes de nuestros modelos, utilizando tanto las preguntas
marcaron. de participación como de humanidad. Los resultados se dan
en figuras15 y dieciséis. Primero observamos varios resultados
Recuperación frente a generador frente a RetNRef Realizamos
que están en línea con los resultados de selfchat de la sección
una evaluación (pregunta de participación) similar a la versión
anterior:
de chat personal de Figure 6, excepto en el uso de
conversaciones entre humanos y robots, y los modelos (i) El uso de BST (BST Generative 2.7B) es superior al
generativo y RetNRef aquí usan las opciones de decodificación preentrenamiento solamente (pushshift.io Reddit
mejoradas. Esto da como resultado una generación más sólida Generative 2.7B)
y modelos RetNRef, que ahora superan al método de
recuperación, consulte la Figura14. (ii) La búsqueda de haz con una longitud de haz
La principal diferencia con nuestros experimentos iniciales mínima de 20 (BST Generative 2.7B) es superior a
de auto-chat (Figura 6) es que nuestra decodificación ahora no tener una longitud mínima (BST Generative
genera respuestas más largas usando un haz mínimo (2.7B) estándar de haz)
Nuestro contra Meena Nuestro contra Meena

BST Generativo (2.7B) estándar. haz 50 50 BST Generativo (2.7B) estándar. haz 46 54
pushshift.io Reddit Generative (2.7B) 53 47 BST RetNRef (256M / 90M) 49 51
BST RetNRef (256M / 90M) 60 ∗ 40 ∗ pushshift.io Reddit Generative (2.7B) 56 44
BST Generativo∗ (90M) 61 ∗ 39 ∗ BST Generative (90M) 59 41
Wiz Generative (2.7B) 61 ∗∗ 39 ∗∗ Wiz Generative (2.7B) 59 * 41 *
Probabilidad de BST (2.7B) 64 ∗∗ 36 ∗∗ BST RetNRef (622M / 2.7B) sesenta y cinco ∗∗ 35 ∗∗
Generativo de BST (9.4B) 67 ∗∗ 33 ∗∗ BST Generativo (2.7B) sesenta y cinco ∗∗ 35 ∗∗
BST RetNRef (622M / 2.7B) 70 ∗∗ 30 ∗∗ BST generativo (9.4B) 66 ∗∗ 34 ∗∗
BST Generativo (2.7B) 75 ∗∗ 25 ∗∗ Probabilidad de BST (2.7B) 70 ∗∗ 30 ∗∗

Figura 16: Evaluación AGUDA de Human-Chat de humanidad


Figura 15: Evaluación AGUDA de Human-Chat de compromiso,
varios modelos en comparación con Meena. Nuestros mejores
varios modelos en comparación con Meena. Nuestros mejores
modelos se consideran más humanos que Meena, filas con∗ y
modelos se consideran más atractivos que Meena, filas con∗ (p
∗∗ son estadísticamente significativas.
< 0.05) y ∗∗ (p < 0.01) son estadísticamente significativas. Los
modelos generativos más grandes con ajuste fino de BST y
decodificación de longitud controlada funcionan mejor.
Modelo vs.Humano

MeenaAdiwardana y col., 2020) 28 ∗∗ 72 ∗∗


(iii) El BST Generativo más grande (2.7B) es superior al Estándar BST Generativo (2.7B). haz 21 ∗∗ 79 ∗∗
modelo BST Generativo más pequeño (90M). pushshift.io Reddit Generative (2.7B) 36 ∗∗ 64 ∗∗
BST RetNRef (256M / 90M) 37 ∗∗ 63 ∗∗
Encontramos que los modelos RetNRef (tanto la versión de BST Generativo (90M) 42 58
diálogo como la recuperación de conocimiento) no mejoran con BST generativo (9.4B) 45 55
BST RetNRef (622M / 2.7B) 46 54
respecto a sus contrapartes generativas cuando se utilizan los
Wiz Generative (2.7B) 47 53
mejores esquemas de decodificación para los modelos
Probabilidad de BST (2.7B) 48 52
generativos. Nuestro modelo BST Generativo 9.4B más grande
BST Generativo (2.7B) 49 51
tiene un buen desempeño en la cuestión de humanidad, pero tiene
un peor desempeño en la participación en comparación con Figura 17: Evaluación AGUDA de la participación de modelos frente a humanos

nuestro modelo 2.7B, a pesar de tener una menor perplejidad, mediante la comparación de registros de robots humanos con registros de
humanos humanos. Filas con∗∗ son estadísticamente significativas.
mostrar la correlación entre estas métricas no es sencillo.
Verificamos este resultado aún más al realizar una evaluación
AGUDA de participación comparando directamente el 2.7B y el 9.4B
entre sí, lo que resultó en una victoria del 56% para el modelo más
pequeño, alineándose con los otros resultados. El trabajo futuro un barómetro más desafiante para comparar nuestros
debería tener como objetivo comprender mejor este resultado. modelos.

Nuestros mejores modelos mejoran significativamente con


Longitud de respuesta Mostramos las estadísticas de longitud
respecto a Meena, con BST Generative 2.7B ganando el 75% del
de respuesta promedio (en términos de tokens de diccionario
tiempo en emparejamientos por parejas para la pregunta de
BPE 8k) de algunos de los modelos en la Figura 18.
participación y el 65% para la pregunta de humanidad. Meena
Comparamos Generative BST (2.7B) con y sin restricciones de
generalmente tiende a obtener mejores resultados en la cuestión
longitud de la viga. Con la restricción (de 20), la longitud de
de la humanidad que en la cuestión de la participación, que está en
respuesta promedio es de alrededor de 21 tokens, por lo que
consonancia con los objetivos y las opciones de modelado en ese
la búsqueda de haces a menudo termina tan pronto como se
trabajo.
cumple la restricción. Por el contrario, sin la restricción, la
Comparaciones de chat entre humanos y modelosEn lugar de longitud media es de 9,5. La longitud media de Meena es
comparar diferentes modelos por parejas, también podemos 10.4, y los humanos que participan en chats entre humanos es
comparar un modelo directamente con el rendimiento humano, 18.0. Los humanos que hablan con modelos (u otros humanos)
ejecutando ACUTE-Evals con un chat de ambos humanos frente a a menudo igualarán la duración de la respuesta si están
un chat humano-humano. Probamos los mismos modelos en esta involucrados en la conversación, y parece haber una
configuración utilizando los registros de chat humanohuman de correlación entre la duración promedio de la respuesta y el
Adiwardana y col. (2020). Los resultados se dan en la Figura17. compromiso (intuitivamente, los humanos gastan tiempo y
Vemos muchas de las mismas tendencias, pero descubrimos que energía escribiendo teclas en su teclado, lo que es más
los chats entre humanos son probable que hagan si están comprometidos).
Modelo Modelo Human Partner en el extremo, este es el llamado problema de "no sé",
Meena 10,4 8.2 donde los modelos tienden a producir tales expresiones
Haz estándar BST Gen (2.7B). 9.5 11,3 evasivas. Usar el muestreo para seleccionar generaciones
BST Gen (2.7B) 21,3 16,3 de menor probabilidad puede ayudar, pero corre el riesgo
Humano 18.0 18.0
de decir algo que tenga menos sentido. Parece que incluso

Figura 18: Estadísticas de longitud de respuesta para varios modelos.


nuestros mejores modelos que utilizan la búsqueda por
Observamos que los métodos de mejor rendimiento tienen longitudes de haz siguen mostrando ese comportamiento. Hemos
respuesta más largas, y los humanos que interactúan con ellos tienen descubierto que fomentar que la duración de las
longitudes de respuesta más largas en especie. generaciones sea más larga ayuda, ya que el modelo se ve
obligado a generar algo más detallado, pero el problema
persiste. Figura22 muestra los 3 gramos que ocurren con
10.4 Ejemplo de conversaciones exitosas
más frecuencia en los registros de conversación con los
En Figuras damos varios ejemplos de lo que consideramos trabajadores de la red para el modelo BST Generative 2.7B
conversaciones exitosas entre los trabajadores de la red y y sus recuentos. Dado que solo hay 100 conversaciones,
el modelo Generative BST 2.7B19 y 20. Los temas abarcan las expresiones "te gusta", "muy divertido", "tienes algún
desde cocina, música, películas y mascotas hasta yoga, pasatiempo", etc. están claramente sobreexpresadas en
veganismo, instrumentos y centros comerciales, a menudo comparación con las conversaciones entre humanos.
con el modelo entrando en detalles cuando se le pregunta, Observamos que la evaluación actual no parece exponer
nombrando tiendas, bandas, películas, actores, especies esto como aburrido porque las conversaciones son cortas
de mascotas y nombres de mascotas relevantes. También y se evalúan por separado. Aplicamos entrenamiento de
proporcionamos dos ejemplos un poco más de sondeo improbabilidad para reducir esta sobreexpresión, lo que
que son conversaciones entre el autor de un artículo y los redujo con éxito esta sobreexpresión durante el
modelos en Figuras21. En el primer ejemplo pedimos una entrenamiento, y también en los registros finales de
comparación entre Bach y Justin Bieber, con respuestas conversación con humanos, como se muestra en la Figura.
bastante matizadas y detalladas del bot. En el segundo 22. Desafortunadamente, esto tuvo un impacto muy
ejemplo le pedimos al bot que escriba una canción, lo que pequeño o negativo en nuestra evaluación AGUDA de
intenta hacer, a pesar de que la letra que genera no se participación, ver Figuras15 y 17, aunque obtuvo una
puede llamar profundamente poética. puntuación alta en términos de humanidad, consulte la
Figura dieciséis. Para la participación, como se explicó,
10.5 Casos de falla y extensiones de modelo creemos que esto se debe a que la técnica de evaluación
Si bien el rendimiento en la configuración ACUTE-Eval parece a actual que emplea conversaciones breves no puede medir
primera vista ser muy fuerte (por ejemplo, 49% a 51% para bien este fenómeno.
nuestro modelo generativo 2.7B en comparación con los
Repetición no trivial Un problema relacionado es que los modelos
registros humanos-humanos), no creemos que estemos tan
generativos también tienden a repetir (Holtzman y col., 2019). Si
cerca de resolver el problema. problema de la conversación de
bien el bloqueo del haz se puede aplicar como una curita para
dominio abierto como indicaría esta evaluación. Aquí,
solucionar algunos de estos problemas, lo que da como resultado
destacamos los problemas con nuestros modelos y aclaramos
un rendimiento mejorado, quedan problemas más profundos.
por qué nuestra evaluación no los capta. Las fallas de ejemplo
Existe una tendencia en los modelos a decir que también tienen un
seleccionadas de los registros de los trabajadores colectivos se
perro como mascota si usted dice que usted tiene uno, y que a
dan como fragmentos de conversación en la Figura23, y otras
ellos también les encanta pasearlo, les gustan las mismas bandas
fallas construidas por los autores del artículo en la Figura 24.
que a usted, etc. Esto está presente en nuestros ejemplos de fallas
( Cifras23 y 24) y nuestros buenos ejemplos seleccionados, véanse
Uso de vocabulario Se ha observado que los modelos las figuras19 y 20. Observamos esto en los registros de otros
generativos que emplean la decodificación de búsqueda sistemas generativos, por ejemplo, también Meena. Si bien esto
por haz (u otros métodos que eligen aproximadamente el puede ser atractivo porque el bot tiende a estar de acuerdo con
enunciado más probable) tienden a generar palabras muchas de las cosas que dices, el control de esto parece deseable.
comunes con demasiada frecuencia y palabras raras con Una posibilidad es aplicar el entrenamiento de improbabilidad para
poca frecuencia, en comparación con la distribución ese objetivo también, para minimizar las repeticiones de contexto (
humana (Holtzman y col., 2018; Welleck y col., 2020; Li y Li y col.,2019a). Agregar una persona al bot es otra forma plausible
col., 2019a). En el diálogo, los humanos pueden interpretar de hacer esto. Hemos agregado simple
esto como técnicamente correcto, pero poco atractivo,
Crowdworker BST generativo 2.7B Crowdworker BST generativo 2.7B

Figura 19: Ejemplos de trabajadores colectivos seleccionados con precisión. Dos conversaciones entre diferentes trabajadores de la red (altavoces
izquierdos) y el modelo Generative BST 2.7B (altavoces derechos).

dos personas de línea siguiendo BST (ver figura 3), pero esto cree que se puede exponer más al sondear el modelo. Si
debería ser mucho más detallado para cubrir todos los casos bien algunos trabajos recientes han propuesto posibles
posibles, por lo que no está claro si es una solución soluciones para estos problemas (Li y col., 2019a), aún no
satisfactoria. Quizás una forma de rastrear esto sería se han resuelto por completo.
preguntar a los evaluadores humanos si el bot está siguiendo
Conocimiento y exactitud de los hechos En nuestra
a su persona, ya que es poco probable que la configuración de
experiencia, en realidad es relativamente fácil incitar a
evaluación actual penalice este comportamiento de imitación.
nuestros modelos a cometer errores fácticos. Quizás
Contradicción y olvido Nuestros modelos ocasionalmente sorprendentemente, aparecen relativamente raramente en las
se contradicen, ver figura23, aunque observamos que esto conversaciones de los trabajadores colectivos con los bots.
ocurre con menos frecuencia en los modelos más grandes. Creemos que esto se debe a la naturaleza de la evaluación
Creemos que debido a la naturaleza del modelado del realizada: las conversaciones comienzan con "¡Hola!" y tienden
lenguaje, los patrones típicos del lenguaje no contienen a cubrir solo temas superficiales en los que los oradores se
contradicciones, pero probar el modelo con respuestas conocen entre sí, y rara vez son lo suficientemente largos
inusuales probablemente expondría este comportamiento como para profundizar en un tema. Explorar un tema de
nuevamente. Un segundo problema relacionado es lo que conversación más enfocado probablemente expondría las
aparece como “olvido” para el observador humano, donde, debilidades del modelo. Por el contrario, parece que el modelo
por ejemplo, le dices al modelo que tienes un perro, pero es bueno para esquivar este problema. Observamos que
luego, más adelante en la conversación, te pregunta qué nuestros modelos a menudo cambian de tema, evitando el
mascotas tienes. Este fenómeno se puede atribuir al hecho desafío de profundizar más, lo que podría ser un efecto
de que el modelo no logra establecer el vínculo lógico de secundario del conjunto de datos ConvAI2 que muestra este
que no debería hacer esa pregunta, en lugar de que el comportamiento. Sin embargo, el conjunto de datos del
modelo realmente “olvide” (si la respuesta anterior está en Asistente de Wikipedia no muestra este comportamiento, y su
su contexto de diálogo). relativamente raramente, pero construcción estaba destinada específicamente a evitarlo.
nosotros Implementamos un modelo que incorporó directamente
Crowdworker BST generativo 2.7B Crowdworker BST generativo 2.7B

Crowdworker BST generativo 2.7B Crowdworker BST generativo 2.7B

Figura 20: Ejemplos de trabajadores colectivos seleccionados con precisión. Cuatro conversaciones entre diferentes trabajadores de la red (altavoces
izquierdos) y el modelo Generative BST 2.7B (altavoces derechos).
Autor del artículo BST generativo 2.7B Autor del artículo BST generativo 2.7B

Figura 21: Ejemplos de autores seleccionados. Conversaciones del autor del artículo (orador izquierdo) con el modelo Generative BST 2.7B
(orador derecho).

leyendo Wikipedia (Wiz Generative 2.7B, Sec 2.3), y miembros de conversaciones anteriores. Nuestras
anecdóticamente se pueden encontrar casos en los que se puede arquitecturas generativas, que son Transformers estándar,
emplear el conocimiento que el modelo puro de secuencia a tienen un límite estricto de 128 tokens BPE de historia, por
secuencia no puede, ver Figura 24. Desafortunadamente, la lectura lo que no es posible ampliar las cosas que han aprendido
de conocimientos solo tuvo un impacto negativo en ACUTE-Evals de o sobre el usuario, hacer referencia a cosas anteriores
en comparación con un modelo de tamaño similar sin recuperación que dijeron, etc. Si bien varios trabajos recientes han
de conocimientos, consulte la Figura17. Creemos que esto se debe ampliado las arquitecturas neuronales poseer contextos
a una combinación de (i) un conocimiento más profundo que rara más largosDai y col., 2019; Rae y col., 2020; Kitaev y col.,
vez se requiere en la configuración de evaluación actual; y (ii) el 2020;Beltagy y col., 2020), no las hemos implementado ni
modelo intenta usar el conocimiento cuando no es necesario, o lo creemos que la configuración de evaluación actual sea la
usa incorrectamente. Los verdaderos agentes de diálogo de adecuada para medir su éxito.
dominio abierto deberían poder utilizar el conocimiento de forma
eficaz y, para lograrlo, tenemos que poder medirlo de forma eficaz. Comprensión más profunda Finalmente, si bien nuestros
modelos parecen charlar con cierto grado de efectividad,
su capacidad para comprender verdaderamente debe ser
Duración y memoria de la conversación Nuestra evaluación cuestionada. Los casos de falla de contradicción y olvido
actual implica conversaciones onehot muy cortas (14 turnos). también enfatizan esto, pero damos ejemplos de casos de
Nuestros bots probablemente serían repetitivos y aburridos en falla más profundos en la Figura25. En los ejemplos, los
el transcurso de varios días o semanas de conversación, como autores de este artículo intentan preguntarle al bot si
se describió anteriormente, y actualmente también son puede entender dos juegos de palabras. El primero
completamente incapaces de volver a requiere comprender la conexión semántica entre
norte-grama de improbabilidad de MLE humano Humano BST generativo 2.7B
Tiene 110 60 6
tienes algún 82 46 2
mucho 74 46 14
Qué es lo que tú 57 20 6
te gusta 54 43 1
Que tipo de 45 41 4
te gusta 44 33 6
gustaría hacer 42 28 0
mucha diversión 39 18 0
lo haces 38 14 6
me gusta 36 9 2
Eso suena como 36 37 0
usted tiene un 34 15 5
tienes algún pasatiempo 34 22 0
suena como un 33 35 4

Figura 22: Recuentos de los más comunes 3-gramos del modelo


BST Generative 2.7B (probabilidad) de los registros de
conversación cuando se habla con los trabajadores de la
plataforma, en comparación con los del mismo modelo entrenados
con improbabilidad, y con los registros humanos (para el mismo
número de expresiones).

entre heno, Harvard y caballos, que el modelo en un


momento afirma entender, pero claramente no lo hace. Su
falta de comprensión puede contrastarse fuertemente con
su capacidad para describir el conocimiento sobre la
ubicación de Harvard o los caballos. Esto recuerda una cita
de Feynman, "Hay una gran diferencia entre saber el
Figura 23: Ejemplos de problemas a la hora de hablar con los
nombre de algo y saber algo". Observamos que a estos trabajadores digitales con nuestro modelo Generative BST
modelos no se les puede enseñar un concepto a través de 2.7B: repetición no trivial (ejemplo superior), olvido (segundo
una conversación adicional, por lo que siempre se ejemplo), contradicción (tercer ejemplo, Georgia no está en el
atrofiarán, ver (Weston,2016; Hancock y col., 2019) para los Medio Oeste), conocimiento alucinante (cuarto ejemplo, la

primeros trabajos en esta dirección. Además, estos oscuridad larga y el bosque son juegos de supervivencia, pero
no por los mismos autores).
modelos, que son incorpóreos, tampoco tienen forma de
conectarse con entidades, acciones y experiencias en el
mundo, lo que también podría atrofiar sus habilidades (
mismo modelo BST generativo 2.7B, pero no vio una diferencia
Bisk y col., 2020). VerUrbanek y col. (2019); Prabhumoye y
estadísticamente significativa, lo que indica que necesitan ser
col. (2020) para otros trabajos de algunos de los autores
más largos o que toda la conversación debe evaluarse de una
que conectan modelos de diálogo con entornos ricos.
vez. Si se requiere lo último, esto se vuelve difícil para un
anotador humano que no participó en la conversación en sí, ya

Notas adicionales sobre evaluación Varios de los puntos que el material a evaluar será muy grande, por lo que nuestra

anteriores plantearon cuestiones relativas a nuestro protocolo configuración actual no funcionará. Otra posibilidad es

de evaluación. Nuestra configuración implica conversaciones mantener las conversaciones breves, pero en su lugar

breves de varios turnos sin instrucciones. Extender la duración proporcionar instrucciones. Por ejemplo, la tarea del Asistente

debería exponer más debilidades; sin embargo, recopilar de Wikipedia (Dinan y col., 2019c) pide a los oradores que

conversaciones largas con los trabajadores de la plataforma es conversen en profundidad sobre un tema elegido al azar,

claramente difícil y no está claro cuántos turnos sería una cambiando la naturaleza de las conversaciones y, por lo tanto,

prueba suficiente. Probamos un experimento preliminar de las habilidades sobre las que se evaluará el modelo.

recopilar 100 conversaciones el doble de tiempo (es decir, 28


turnos) para ver la disminución del rendimiento de nuestros Finalmente, cuando se compara con el desempeño humano, la
modelos. Comparamos la segunda mitad de las calidad de las conversaciones humanas es importante. En figura17
conversaciones con las versiones más cortas de la comparamos con los registros de empleados de
Autor del artículo (humano) BST generativo 2.7B Autor del artículo (humano) BST generativo 2.7B
Los caballos van a Hayvard ... ¿entiendes?

No, no lo entiendo. ¿Me lo puedes explicar como si tuviera cinco años?

Bueno, Harvard es una escuela para humanos y los caballos comen heno ...

Si lo sé. Pero, ¿qué tiene eso que ver con la broma? Estoy tan
confundida.

¿Sabes qué es el heno?

Sí, es un tipo de grano. Simplemente no veo cómo eso es relevante para la


broma.

¿Sabes qué son los caballos?

Sí, son animales domesticados que se han criado durante


milenios para diversos fines.

¿Sabes qué es Harvard?

Si. Es una universidad en Boston, Massachusetts, en Estados Unidos.

Entonces, ¿qué es Hayvard?

No estoy seguro, pero sé que está ubicado en Cambridge.

No, no es un lugar real.

Ah, okey. Yo no lo sabía. Gracias por informarme de eso.

Es como un mal juego de palabras. Algunas personas piensan que es gracioso.

Veo. Bueno, al menos hoy aprendí algo nuevo. ¡Qué tengas un lindo
día!

¿Qué aprendiste?

Me enteré de que la Universidad de Boston está en el área metropolitana de


Boston, lo cual no sabía.

¿Por qué fue el hongo a la fiesta?

No estoy seguro, pero me alegro de que así fuera. Amo los museos. ¿A qué te
Humano Wiz Generative 2.7B dedicas?

No, se suponía que era una broma.

Oh, lo siento. No lo entendí. ¿Qué tipo de broma fue? Me gustan las bromas.

La respuesta es "porque es un tipo divertido". ¿Lo entiendes?

No, no lo creo. ¿Me lo puedes explicar como si tuviera cinco años?

Si. Los hongos son hongos y "hongos" se pronuncia como "chico divertido".

Ah, okey. Ahora lo entiendo. Gracias por la explicación.


Realmente lo aprecio.

Figura 24: Ejemplos de problemas creados por autores de ¿Estás seguro de que lo entiendes? Me lo puedes explicar?

artículos con nuestro modelo Generative BST 2.7B: Seguro. Es un juego con la palabra hongo, que también se pronuncia chico divertido.

repetición no trivial (dos ejemplos superiores), olvido


(tercer ejemplo) y conocimiento alucinante (cuarto y quinto Suficientemente cerca.

ejemplos). Wojciech Zaremba es un investigador de IA Me alegro de que pudiéramos llegar a un acuerdo. ¡Que tengas un gran día, chico divertido!

nacido en Polonia, y Amon Tobin es un músico electrónico


brasileño, que el modelo Wiz Generative recupera Figura 25: Ejemplos de falta de comprensión profunda con
correctamente de Wikipedia (dos últimos ejemplos). El nuestro modelo Generative BST 2.7B. (Arriba) el modelo
modelo Generative BST 2.7B, que no utiliza recuperación, muestra conocimiento de varios conceptos sin comprender lo
alucina a un jugador de fútbol italiano y a un cantante que sabe, como lo indica su incapacidad para comprender el
estadounidense. juego de palabras. (Abajo) El modelo hace un buen trabajo al
fingir que entiende el juego de palabras, pero en realidad no
lo hace.
Adiwardana y col. (2020). Debido a que trabajan en la misma
empresa, o tal vez se conocen entre sí, estas conversaciones
suelen ser enriquecedoras y atractivas. También intentamos conversaciones de trabajadores colectivos, que tomamos del
comparar las conversaciones entre humanos y trabajadores de documento de BST (Smith y col., 2020) encontramos que
la comunidad. En ese caso, los trabajadores digitales no nuestros modelos funcionan mejor que en comparación con
tendrán conexión social para comenzar la conversación, y los empleados. En ese caso, nuestro modelo generativo BST
creemos que esto da como resultado registros menos 2.7B en un AGUTE-Eval de participación supera a los humanos
atractivos. Al compararlo con tal humano-humano del 56% al 44% (no estadísticamente significativo),

También podría gustarte