IA - Guia para Principiantes en IA (Nvidia)

Machine Translated by Google
Una guía para principiantes sobre

Modelos de lenguaje grandes
Parte 1
Colaboradores:
Annamalai Chockalingam
ankur patel
Shashank Verma
Tiffany Yeung
Prefacio
El lenguaje ha sido parte integral de la sociedad humana durante miles de años. Una teoría que prevalece desde hace
mucho tiempo, la teoría del descenso laríngeo o LDT, sugiere que el habla y, por tanto, el lenguaje, pueden haber
evolucionado hace unos 200.000 o 300.000 años, mientras que investigaciones más recientes muestran que
podría haber sucedido incluso antes.
Independientemente de cuándo apareció por primera vez, el lenguaje sigue siendo la piedra angular de la comunicación humana. Ha
asumido un papel aún mayor en la era digital actual, donde una porción sin precedentes de la población puede comunicarse a
través de texto y voz en todo el mundo.
Esto se ve subrayado por el hecho de que 347,3 mil millones de mensajes de correo electrónico se envían y reciben en todo el mundo
todos los días, y que cinco mil millones de personas (o más del 63% de toda la población mundial) envían y reciben mensajes de texto.
Por lo tanto, el lenguaje se ha convertido en un gran tesoro de información que puede ayudar a las empresas a extraer información valiosa,
identificar tendencias y tomar decisiones informadas. Por ejemplo, las empresas pueden analizar textos como reseñas de clientes para
identificar las características más vendidas de sus productos y afinar el desarrollo futuro de sus productos.
De manera similar, la producción lingüística (a diferencia del análisis lingüístico ) también se está convirtiendo en una herramienta cada
vez más importante para las empresas. La creación de publicaciones en blogs, por ejemplo, puede ayudar a las empresas a
aumentar el conocimiento de la marca a un nivel nunca antes visto, mientras que la redacción de correos electrónicos puede
ayudarlas a atraer nuevas partes interesadas o socios a una velocidad inigualable.
Sin embargo, tanto el análisis como la producción del lenguaje son procesos que consumen mucho tiempo y pueden distraer a los
empleados y a los tomadores de decisiones de tareas más importantes. Por ejemplo, los líderes a menudo necesitan examinar grandes
cantidades de texto para tomar decisiones informadas en lugar de tomarlas basándose en información clave extraída.
Las empresas pueden minimizar estos y otros problemas, como el riesgo de error humano, empleando modelos de lenguaje grandes
(LLM) para tareas relacionadas con el lenguaje. Los LLM pueden ayudar a las empresas a acelerar y automatizar en gran medida sus
esfuerzos relacionados con la producción y el análisis del lenguaje, ahorrando tiempo y recursos valiosos al tiempo que mejoran la
precisión y la eficiencia.
A diferencia de las soluciones anteriores, como los sistemas basados en reglas, los LLM son increíblemente versátiles y pueden adaptarse
fácilmente a una amplia gama de tareas relacionadas con el idioma, como generar contenido o resumir documentación legal.
Una guía para principiantes sobre modelos de lenguaje grandes 3

El objetivo de este libro es ayudar a las empresas a comprender qué hace que los LLM sean tan innovadores en
comparación con soluciones anteriores y cómo pueden beneficiarse al adoptarlos o desarrollarlos. También tiene como
objetivo ayudar a las empresas a obtener una ventaja al describir los pasos más cruciales para el desarrollo, la
capacitación y la implementación de LLM.
Para lograr estos objetivos, el libro se divide en tres partes:
> La Parte 1 define los LLM y describe los avances tecnológicos y metodológicos durante el
años que los hicieron posibles. También aborda temas más prácticos, como cómo las empresas pueden desarrollar sus
propios LLM y las empresas más destacadas en el campo LLM. Esto debería ayudar a las empresas a
comprender cómo la adopción de LLM puede desbloquear posibilidades de vanguardia y revolucionar sus operaciones.
> La Parte 2 analiza cinco casos de uso principales de los LLM dentro de las empresas, incluida la generación de
contenido, el resumen y el soporte de chatbot. Cada caso de uso se ejemplifica con aplicaciones y estudios de casos
de la vida real, para mostrar cómo los LLM pueden resolver problemas reales y ayudar a las empresas a alcanzar
objetivos específicos.
> La Parte 3 es una guía práctica para empresas que desean crear, capacitar e implementar sus propios LLM. Proporciona
una descripción general de los requisitos previos necesarios y las posibles compensaciones con diferentes
métodos de desarrollo e implementación. Los ingenieros de ML y los científicos de datos pueden utilizar esto
como referencia en todos sus procesos de desarrollo de LLM.
Con suerte, esto inspirará a las empresas que aún no han adoptado o desarrollado sus propios LLM a hacerlo pronto para
obtener una ventaja competitiva y ofrecer nuevos servicios o productos SOTA. La mayoría de los beneficios estarán, como
siempre, reservados para los primeros en adoptarlos o para los innovadores verdaderamente visionarios.

Glosario
Términos Descripción
Sistemas de aprendizaje profundo Sistemas que dependen de redes neuronales con muchas capas ocultas para aprender
patrones complejos.
IA generativa Programas de inteligencia artificial que pueden generar contenido nuevo, como texto,
imágenes y audio, en lugar de simplemente analizarlo.
Modelos de lenguajes grandes (LLM) Modelos de lenguaje que reconocen, resumen, traducen, predicen y generan texto
y otros contenidos. Se les llama grandes porque están capacitados con
grandes cantidades de datos y tienen muchos parámetros, y los LLM populares
alcanzan cientos de miles de millones de parámetros.
Procesamiento del lenguaje natural (PNL) La capacidad de un programa de computadora para comprender y generar texto en
lenguaje natural.
Red neuronal de memoria a corto plazo (LSTM) Un tipo especial de RNN con bloques de celdas más complejos que le permiten
retener más entradas pasadas.
Generación de lenguaje natural (NLG) Parte de la PNL que se refiere a la capacidad de un programa informático para
generar texto similar al humano.
Comprensión del lenguaje natural (NLU) Parte de la PNL que se refiere a la capacidad de un programa de computadora para
comprender texto similar a un humano.
Red neuronal (NN) Un algoritmo de aprendizaje automático en el que los parámetros se organizan
en capas consecutivas. El proceso de aprendizaje de las NN está inspirado en el
cerebro humano. Al igual que los humanos, los NN “aprenden” características
importantes a través del aprendizaje de representación y requieren menos
participación humana que la mayoría de los otros enfoques del aprendizaje
automático.
Percepción IA Programas de IA que pueden procesar y analizar pero no generar datos, desarrollados
principalmente antes de 2020.
Red neuronal recurrente (RNN) Red neuronal que procesa datos secuencialmente y puede memorizar
entradas pasadas.

Sistema basado en reglas Un sistema que se basa en reglas creadas por humanos para procesar datos.
Aprendizaje automático tradicional El aprendizaje automático tradicional utiliza un enfoque estadístico, dibujando
distribuciones de probabilidad de palabras u otros tokens basándose en un gran
corpus anotado. Se basa menos en reglas y más en datos.
Transformador Un tipo de arquitectura de red neuronal diseñada para procesar datos
secuenciales de forma no secuencial.
Datos estructurados Los datos que son de naturaleza cuantitativa, como los números de teléfono, pueden
estandarizarse y ajustarse fácilmente a un formato predefinido que los algoritmos de
aprendizaje automático pueden procesar rápidamente.
Datos no estructurados Datos de naturaleza cualitativa, como opiniones de clientes, y difíciles de estandarizar.
Estos datos se almacenan en sus formatos nativos, como archivos PDF, antes de su
uso.
Sintonia FINA Un método de aprendizaje por transferencia utilizado para mejorar el rendimiento del
modelo en tareas o conjuntos de datos posteriores seleccionados. Se utiliza cuando el
La tarea objetivo es similar a la tarea previa al entrenamiento e implica copiar los pesos
de un PLM y ajustarlos a las tareas o datos deseados.
Personalización Un método para mejorar el rendimiento del modelo modificando solo uno o algunos
parámetros seleccionados de un PLM en lugar de actualizar todo el modelo. Implica
el uso de técnicas eficientes en parámetros (PEFT).
Técnicas de parámetros eficientes (PEFT) Técnicas como aprendizaje rápido, LoRa y ajuste de adaptadores que permiten
a los investigadores personalizar los PLM para el proceso descendente.
tareas o conjuntos de datos mientras se preserva y aprovecha el conocimiento
existente sobre los PLM. Estas técnicas se utilizan durante la personalización del
modelo y permiten un entrenamiento más rápido y, a menudo, predicciones más
precisas.
Aprendizaje rápido Un término general para dos técnicas PEFT, ajuste rápido y ajuste p, que ayudan a
personalizar los modelos mediante la inserción de incrustaciones de tokens virtuales
entre incrustaciones de tokens discretas o reales.
Ajuste del adaptador Una técnica PEFT que implica agregar capas livianas de avance, llamadas adaptadores,
entre las capas PLM existentes y actualizar solo sus pesos durante la
personalización mientras se mantienen congelados los pesos PLM originales.
Respuesta a preguntas de dominio abierto Responder preguntas de una variedad de dominios diferentes, como legal, médico
y financiero, en lugar de un solo dominio.
Respuesta a preguntas extractivas. Responder preguntas extrayendo las respuestas de las existentes.
textos o bases de datos.

Rendimiento Una medida de la eficiencia y velocidad del modelo. Se refiere a la

cantidad de datos o la cantidad de predicciones que un modelo puede procesar
o generar dentro de un período de tiempo predefinido.
Latencia La cantidad de tiempo que un modelo necesita para procesar entradas

y generar resultados.
Preparación de datos La idoneidad de los datos para su uso en la capacitación, en función de factores
como la cantidad, estructura y calidad de los datos.

Introducción a los LLM
Un modelo de lenguaje grande es un tipo de sistema de inteligencia artificial (IA) que es capaz
de generar texto similar al humano en función de los patrones y relaciones que aprende de
grandes cantidades de datos. Los modelos de lenguaje grandes utilizan una técnica de aprendizaje
automático llamada aprendizaje profundo para analizar y procesar grandes conjuntos de datos,
como libros, artículos y páginas web.
Los grandes modelos de lenguaje abrieron numerosas posibilidades sin precedentes en el campo de la PNL y la IA. Esto quedó
demostrado de manera más notable con el lanzamiento de GPT3 de OpenAI en 2020, el modelo de lenguaje más grande jamás
desarrollado en ese momento.
Estos modelos están diseñados para comprender el contexto y el significado del texto y pueden generar texto que sea
gramaticalmente correcto y semánticamente relevante. Se les puede capacitar en una amplia gama de tareas, incluida la
traducción de idiomas, resúmenes, respuesta a preguntas y finalización de textos.
GPT3 hizo evidente que los modelos a gran escala pueden realizar con precisión una amplia (y nunca antes vista) gama
de tareas de PNL, desde el resumen de texto hasta la generación de texto. También demostró que los LLM podrían generar
resultados que son casi indistinguibles del texto creado por humanos, mientras aprenden por sí solos con una mínima
intervención humana.
Esto presentó una enorme mejora con respecto a los modelos anteriores, principalmente basados en reglas, que no podían
aprender por sí solos ni resolver con éxito tareas para las que no estaban capacitados. No sorprende, entonces, que muchas
otras empresas y nuevas empresas pronto comenzaran a desarrollar sus propios LLM o a adoptar LLM existentes para
acelerar sus operaciones, reducir gastos y optimizar los flujos de trabajo.
La Parte 1 tiene como objetivo proporcionar una introducción y una base sólidas para cualquier empresa que esté considerando
construir o adoptar su propio LLM.
¿Qué son los modelos de lenguaje grande (LLM)?

Los modelos de lenguaje grande (LLM) son algoritmos de aprendizaje profundo que pueden reconocer, extraer, resumir, predecir
y generar texto basándose en el conocimiento adquirido durante el entrenamiento en conjuntos de datos muy grandes.
También son un subconjunto de una tecnología más general llamada modelos de lenguaje. Todos los modelos de lenguaje tienen
una cosa en común: pueden procesar y generar texto que suena como lenguaje natural. Esto se conoce como realizar tareas
relacionadas con el procesamiento del lenguaje natural (PNL).

Aunque todos los modelos de lenguaje pueden realizar tareas de PNL, se diferencian en otras características, como su tamaño. A diferencia de
otros modelos, los LLM se consideran de gran tamaño por dos razones:
1. Están entrenados utilizando grandes cantidades de datos.
2. Comprenden una gran cantidad de parámetros que se pueden aprender (es decir, representaciones de la estructura subyacente de los
datos de entrenamiento que ayudan a los modelos a realizar tareas con datos nuevos o nunca antes vistos).
La Tabla 1 muestra dos modelos de lenguaje grandes, MTNLG y GPT3 Davinci, para ayudar a aclarar qué se considera grande según
los estándares contemporáneos.
Tabla 1. Comparación de MTNLG y GPT3
Modelo de lenguaje grande Número de Número de tokens en

parámetros los datos de entrenamiento
Modelo NVIDIA: lenguaje natural MegatronTuring 530 mil millones 270 mil millones
Modelo de Generación (MTNLG)
Modelo OpenAI: GPT3 Modelo Da Vinci 175 mil millones 499 mil millones
Dado que la calidad de un modelo depende en gran medida del tamaño del modelo y del tamaño de los datos de entrenamiento, los modelos
de lenguaje más grandes suelen generar respuestas más precisas y sofisticadas que sus contrapartes más pequeñas.

Figura 1. Respuesta generada por GPT3.
Sin embargo, el rendimiento de los modelos de lenguaje grandes no depende sólo del tamaño del modelo o de la cantidad de
datos. La calidad de los datos también importa.
Por ejemplo, los LLM capacitados en artículos de investigación revisados por pares o novelas publicadas generalmente tendrán un
mejor desempeño que los LLM capacitados en publicaciones de redes sociales, comentarios de blogs u otro contenido no revisado.
Los datos de baja calidad, como el contenido generado por el usuario, pueden generar todo tipo de problemas, como que los
modelos aprendan jerga, aprendan la ortografía incorrecta de las palabras, etc.
Además, los modelos necesitan datos muy diversos para poder realizar diversas tareas de PNL. Sin embargo, si se pretende
que el modelo sea especialmente bueno para resolver un conjunto particular de tareas, entonces ajústelo utilizando un conjunto
de datos más relevante y más limitado. Al hacerlo, se transforma un modelo de lenguaje básico (de uno que es bueno para realizar
varias tareas de PNL en un amplio conjunto de dominios) a un modelo perfeccionado que se especializa en realizar tareas en
un dominio de alcance limitado.

Modelos de lenguaje básicos versus modelos de lenguaje

perfeccionados
Los modelos de lenguaje básico, como los ya mencionados MTNLG y GPT3, son a lo que generalmente se hace
referencia cuando se habla de LLM. Están capacitados con grandes cantidades de datos y pueden realizar una amplia
variedad de tareas de PNL, desde responder preguntas y generar resúmenes de libros hasta completar y traducir oraciones.
Gracias a su tamaño, los modelos básicos pueden funcionar bien incluso cuando tienen pocos datos específicos de dominio
a su disposición. Tienen un buen desempeño general en todas las tareas, pero es posible que no se destaquen en
la realización de ninguna tarea específica.
Los modelos de lenguaje ajustados, por otro lado, son modelos de lenguaje grandes derivados de LLM básicos. Están
personalizados para casos de uso o dominios específicos y, por lo tanto, mejoran en la realización de tareas más
especializadas.
Aparte del hecho de que los modelos ajustados pueden realizar tareas específicas mejor que los modelos básicos, su mayor
fortaleza es que son más livianos y, en general, más fáciles de entrenar. Pero, ¿cómo se puede realmente afinar un modelo
básico para objetivos específicos?
Actualmente, el método más popular es personalizar un modelo utilizando técnicas de personalización eficientes en
parámetros, como ajuste p, ajuste rápido, adaptadores, etc. La personalización requiere mucho menos tiempo y es
menos costosa que ajustar todo el modelo, aunque puede conducir a un rendimiento algo peor que otros métodos.
Los métodos de personalización se analizan con más detalle en la Parte 3.
Evolución de los modelos de lenguaje grandes

Históricamente, los sistemas de IA consistían en procesar y analizar datos, no en generarlos. Estaban más orientados a
percibir y comprender el mundo que nos rodea que a generar nueva información. Esta distinción marca la principal
diferencia entre IA perceptiva y generativa, y esta última se ha vuelto cada vez más prevalente desde aproximadamente
2020, o después de que las empresas comenzaron a adoptar modelos transformadores y a desarrollar LLM cada vez más
robustos a gran escala.
La llegada de grandes modelos de lenguaje impulsó aún más un cambio de paradigma revolucionario en la forma en que
se diseñan, entrenan y utilizan los modelos de PNL. Para comprender realmente esto, puede resultar útil comparar modelos
de lenguajes grandes con modelos anteriores de PNL y cómo funcionaban. Para ello, exploremos brevemente tres regímenes
en la historia de la PNL: PNL pretransformadores, PNL transformadores y PNL LLM.
1. La PNL anterior a los transformadores estaba marcada principalmente por modelos que se basaban en reglas creadas por humanos en lugar de
que los algoritmos de aprendizaje automático para realizar tareas de PNL. Esto los hacía adecuados para tareas más
simples que no requerían demasiadas reglas, como la clasificación de textos, pero inadecuados para tareas más
complejas, como la traducción automática. Los modelos basados en reglas también funcionaron mal en escenarios
extremos porque no podían hacer predicciones o clasificaciones precisas para datos nunca antes vistos para los cuales
no se establecieron reglas claras. Este problema se resolvió en parte con redes neuronales simples, como RNN y
LSTM, desarrolladas durante las últimas fases de este período. Los RNN y LSTM podrían memorizar datos pasados
hasta cierto punto y, por lo tanto, proporcionar predicciones dependientes del contexto y

clasificaciones. Sin embargo, los RNN y LSTM no podían hacer predicciones en largos períodos de texto, lo que limita su
eficacia.
2. Transformers PNL se puso en marcha con el auge de la arquitectura de transformadores en 2017.

Los transformadores podrían generalizar mejor que los RNN y LSTM predominantes en ese momento, capturar más contexto
y procesar más datos a la vez. Estas mejoras permitieron a los modelos de PNL comprender secuencias de datos más largas y
realizar una gama mucho más amplia de tareas. Sin embargo, desde el punto de vista actual, los modelos desarrollados durante
este período tenían capacidades limitadas, principalmente debido a la falta general de conjuntos de datos a gran escala y
recursos computacionales adecuados. También despertaron la atención principalmente entre investigadores y expertos en
el campo, pero no entre el público en general, ya que no eran fáciles de usar ni lo suficientemente precisos como para
comercializarlos.
3. LLM NLP se inició principalmente con el lanzamiento de GPT3 de OpenAI en 2020. Los modelos de lenguaje grandes como
GPT3 se entrenaron con cantidades masivas de datos, lo que les permitió producir respuestas de PNL más precisas y
completas en comparación con los modelos anteriores. Esto abrió muchas posibilidades nuevas y nos acercó a lograr lo que
muchos consideran una IA “verdadera”. Además, los LLM hicieron que los modelos de PNL fueran mucho más accesibles
para usuarios no técnicos que ahora podían resolver una variedad de tareas de PNL simplemente utilizando indicaciones en
lenguaje natural. La tecnología PNL finalmente se democratizó.
El cambio de una metodología a otra estuvo impulsado en gran medida por avances tecnológicos y metodológicos relevantes,
como la llegada de redes neuronales, mecanismos de atención y transformadores, y desarrollos en el campo del aprendizaje no
supervisado y autosupervisado. Las siguientes secciones explicarán brevemente estos conceptos, ya que comprenderlos
es crucial para comprender realmente cómo funcionan los LLM y cómo crear nuevos LLM desde cero.
Redes neuronales
Las redes neuronales (NN) son algoritmos de aprendizaje automático modelados libremente a partir del cerebro humano. Al igual
que el cerebro humano biológico, las redes neuronales artificiales constan de neuronas, también llamadas nodos, que son
responsables de todas las funciones del modelo, desde el procesamiento de entradas hasta la generación de salidas.
Las neuronas se organizan además en capas, componentes de NN apilados verticalmente que realizan tareas específicas
relacionadas con secuencias de entrada y salida.

Cada red neuronal tiene al menos tres capas:
> La capa de entrada acepta datos y los pasa al resto de la red.
> La capa oculta, o varias capas ocultas, realizan funciones específicas que hacen que el resultado final
salida de un NN posible. Estas funciones pueden incluir identificar o clasificar datos, generar nuevos datos y otras funciones según
la tarea específica de PNL en cuestión.
> La capa de salida genera una predicción o clasificación basada en la entrada.
Cuando se desarrollaron por primera vez los LLM, se basaban en arquitecturas NN más simples con menos capas, principalmente
redes neuronales recurrentes (RNN) y redes de memoria a corto plazo (LSTM). A diferencia de otras redes neuronales, las RNN y
LSTM podrían tener en cuenta el contexto, la posición y las relaciones entre palabras incluso si estuvieran muy separadas
en una secuencia de datos. En pocas palabras, esto significaba que podían memorizar y considerar datos pasados al generar
resultados, lo que resultó en soluciones más precisas para muchas tareas de PNL, especialmente el análisis de sentimientos y
la clasificación de texto.
La mayor ventaja que tenían las redes neuronales como RNN y LSTM sobre los sistemas tradicionales basados en reglas era que
eran capaces de aprender por sí mismas con poca o ninguna participación humana.
Analizan datos para crear sus propias reglas, en lugar de aprender las reglas primero y aplicarlas a los datos más tarde. Esto también
se conoce como aprendizaje de representación y está inspirado en los procesos de aprendizaje humano.
Las representaciones, o características, son patrones ocultos que las redes neuronales pueden extraer de los datos. Para ejemplificar
esto, imaginemos que estamos entrenando un modelo basado en NN en un conjunto de datos que contiene los siguientes tokens:
“gato”, “gatos”, perro”, “perros”
Después de analizar estos tokens, el modelo puede identificar una representación que se podría formular como:
Los sustantivos en plural tienen el sufijo "s".
Luego, el modelo extraerá esta representación y la aplicará a escenarios nuevos o extremos cuya distribución de datos sigue la de los datos
de entrenamiento. Por ejemplo, se puede suponer que el modelo clasificará correctamente tokens como “sillas” o “mesa” como plural o
singular incluso si no los ha encontrado antes. Una vez que encuentre sustantivos irregulares que no siguen la representación extraída, el
modelo actualizará sus parámetros para reflejar nuevas representaciones, como por ejemplo:
Los sustantivos en plural van seguidos de verbos en plural.
Este enfoque permite que los modelos basados en NN se generalicen mejor que los sistemas basados en reglas y realicen
con éxito una gama más amplia de tareas.
Sin embargo, su capacidad para extraer representaciones depende en gran medida del número de neuronas y capas que componen
una red. Cuantas más neuronas tengan las redes neuronales, más representaciones complejas podrán extraer. Es por eso que,
hoy en día, la mayoría de los grandes modelos de lenguaje utilizan redes neuronales de aprendizaje profundo con múltiples capas
ocultas y, por lo tanto, una mayor cantidad de neuronas.

La Figura 2 muestra una comparación lado a lado de una red neuronal de una sola capa y una red neuronal de aprendizaje
profundo.
Figura 2. Comparación de la red neuronal de una sola capa frente a la de aprendizaje profundo
Si bien esto puede parecer una opción obvia hoy en día, considere que desarrollar redes neuronales profundas no tenía sentido
antes de que el hardware evolucionara para poder manejar cargas de trabajo masivas. Esto solo fue posible después de
~1999, cuando NVIDIA introdujo "la primera GPU" o unidad de procesamiento de gráficos del mundo en el mercado en general
o, más precisamente, después de que una CNN de gran éxito llamada AlexNet popularizara su uso en el aprendizaje profundo
en 2012.
Las GPU tenían una arquitectura altamente paralelizable que permitió los rápidos avances en los sistemas de aprendizaje
profundo que se ven hoy en día. Entre otros avances, la llegada de las GPU marcó el comienzo del desarrollo de un
nuevo tipo de red neuronal que revolucionaría el campo de la PNL: los transformadores.
Transformadores
Si bien los RNN y LSTM tienen sus ventajas, especialmente en comparación con los modelos tradicionales, también tienen
algunas limitaciones que los hacen inadecuados para tareas de PNL más complejas, como la traducción automática. Su
principal limitación es la incapacidad de procesar secuencias de datos más largas y, por tanto, considerar el contexto general de
la secuencia de entrada. Debido a que los LSTM y RNN no pueden manejar demasiado contexto, sus resultados tienden a ser
inexactos o sin sentido. Este y otros desafíos se han superado en gran medida con la llegada de nuevas redes neuronales
especiales llamadas transformadores.
Los transformadores fueron introducidos por primera vez en 2017 por Vaswani et al. en un artículo titulado "La atención es
todo lo que necesitas". El título aludía a los mecanismos de atención, que se convertirían en el componente clave de
los transformadores.

"Proponemos una nueva arquitectura de red simple, el Transformer, basada únicamente en mecanismos de atención,
prescindiendo por completo de la recurrencia y las convoluciones". Vaswani et. al, “La atención es todo lo que necesitas”
El artículo proponía que los mecanismos de atención dejarían obsoletas la recurrencia y las convoluciones con respecto a los
datos secuenciales y harían que los transformadores sean más adecuados para la traducción automática que los RNN y las
CNN. Esta profecía pronto se haría realidad, ya que los transformadores se convertirían en la arquitectura dominante
no sólo para la traducción automática sino para todas las tareas de PNL.
Los mecanismos de atención resolvieron el problema del manejo inadecuado del contexto al permitir que los modelos
prestaran atención selectivamente a ciertas partes de la entrada mientras la procesaban. En lugar de tener que capturar todo
el contexto a la vez, los modelos ahora podrían centrarse en los tokens más importantes relacionados con una tarea específica.
Para demostrar esto, imaginemos que el modelo deseado es un modelo basado en transformador para predecir las siguientes
palabras para la siguiente oración de entrada:
María tenía un corderito.
Mecanismos de atención –o, más bien, capas de autoatención que se basan en mecanismos de atención–
Primero calcularíamos los pesos de atención para cada palabra en nuestra entrada. Los pesos de atención representan la
importancia de cada token, por lo que cuanto más peso se le asigna a un token, más importante se considera.
Por ejemplo, el mecanismo de atención podría dar más peso a la palabra "cordero" que a la palabra "a", ya que es probable que
tenga más influencia en el resultado final.
Luego, el modelo usaría estos pesos para enfatizar o restar importancia dinámicamente a cada palabra a medida que
genera resultados. Si se supone que se asignó el mayor peso a la palabra "cordero", el modelo puede producir una
continuación como:
"cuyo vellón era blanco como la nieve"
Para determinar qué tan importante es cada token, las capas de autoatención examinan sus relaciones con otros tokens en
una secuencia:
1. Si un token tiene muchas relaciones relevantes con otros tokens con respecto a la tarea que se está realizando
realizado, entonces ese token se considera importante y, potencialmente, más importante que otros tokens en la misma
secuencia.
2. Si un token no tiene muchas relaciones con otros tokens, o si son irrelevantes para una tarea específica, ese token se
considera menos importante o completamente sin importancia. Esto significa que el modelo prácticamente lo ignorará
al generar el resultado.
Entonces, al permitir que los modelos manejen el contexto de manera más efectiva, los mecanismos de atención les
permitieron generar resultados más precisos que los modelos basados en RNN y LSTM. Al mismo tiempo, este nuevo
enfoque para el procesamiento de datos también permitió que los modelos basados en transformadores generaran
resultados más rápidamente que los modelos basados en RNN y LSTM.

Los LSTM y RNN necesitan más tiempo para generar resultados porque procesan los datos de forma secuencial. Para
aclarar lo que esto significa, exploremos cómo los LSTM abordarían el procesamiento de nuestra oración de entrada
original:
María tenía un corderito.
Dado que los LSTM procesan datos de forma secuencial, necesitarían procesar una palabra en nuestra secuencia a la vez:
María, tenía un corderito. Esto ralentiza significativamente la inferencia, especialmente con secuencias de datos más largas.
Por ejemplo, imagínese cuánto tiempo les tomaría a los LSTM y RNN procesar una sola página de Wikipedia. Demasiado
largo.
Los transformadores, por otro lado, procesan datos en paralelo, lo que significa que "leen" todos los tokens de entrada a la vez en
lugar de procesar uno a la vez. También significa que pueden realizar tareas de PNL más rápido que los LSTM y RNN.
Sin embargo, a pesar de ser lento, el procesamiento de datos secuencial tiene una gran ventaja. Al procesar una palabra a la
vez, los LSTM y RNN siempre pueden saber qué palabra apareció en primer lugar, en segundo lugar, etc.
Conocen el orden de las palabras de la secuencia de entrada porque usan ese mismo orden para procesarla.
Por el contrario, los transformadores inicialmente no son “conscientes” del orden original de las palabras porque procesan los
datos de forma no secuencial. Si bien esto puede parecer un problema menor al principio, el análisis de las siguientes oraciones
puede ilustrar lo contrario:
1. María tenía un corderito.
2. Un corderito tenía a María.
3. Tenía una corderita María.
La oración (2) muestra cómo un ligero cambio en el orden de las palabras puede distorsionar el significado deseado,
mientras que la oración (3) ejemplifica un problema aún mayor: cómo los cambios en el orden de las palabras pueden resultar
en variaciones completamente absurdas y gramaticalmente incorrectas.
Para superar este desafío, los transformadores utilizan codificaciones posicionales que les ayudan a retener la información
de posición. Las codificaciones posicionales son entradas adicionales, o vectores, asociados con cada token. Pueden ser fijos o
entrenables, dependiendo de si se desea que el modelo los perfeccione durante el entrenamiento o no.
Una guía para principiantes sobre modelos de lenguaje grandes dieciséis

Figura 3. Procesamiento de datos secuenciales en un LSTM
Fuente: La atención es todo lo que necesitas
Los investigadores y las empresas pronto comenzarían a implementar estos nuevos mecanismos y a construir nuevos modelos
basados en transformadores; Google lanzó su famoso BERT en 2018.
BERT
BERT (Representaciones de codificador bidireccional de Transformers) de Google es uno de los primeros modelos
de lenguaje basados en transformadores. Es un modelo de lenguaje enmascarado (MLM), lo que significa que se entrena con
oraciones que contienen tokens enmascarados. El modelo necesita predecir el token enmascarado considerando el contexto
circundante. Para ilustrar esto, imaginemos que a un modelo se le da la siguiente oración de entrada:
"Tengo una máscara".
La tarea de BERT es predecir la palabra enmascarada "tener". Lo hace analizando los tokens en ambos lados, a saber ,
"yo", "a" y "máscara". Esto es lo que lo hace bidireccional y más preciso que los modelos de lenguaje anteriores que solo
podían considerar el contexto a la izquierda del token enmascarado. En este caso, los modelos unidireccionales sólo considerarían
la palabra "yo" al predecir la palabra enmascarada, lo que proporciona poco contexto. Las posibilidades de que un modelo
unidireccional genere las predicciones correctas son menores.

BERT fue el primer modelo en mostrar cómo la bidireccionalidad puede modelar el desempeño de las tareas de PNL. Se ha utilizado para
diversos fines, incluida la mejora de la precisión de los resultados de búsqueda de Google al permitir una mejor comprensión del contexto y el
significado de las consultas.
Otros modelos de lenguaje grandes

BERT de Google y los nuevos avances en este campo inspiraron a otras empresas a comenzar a construir sus propios modelos de
lenguaje de gran tamaño. En la siguiente tabla, enumeramos algunos modelos desarrollados antes del verdaderamente innovador GPT3,
lanzado en junio de 2020.
La Tabla 2 muestra una cronología de los lanzamientos consiguientes de LLM.
Tabla 2. Cronograma de lanzamiento del modelo de lenguaje grande
Modelo Año de la empresa Breve descripción

GPT2 AbiertoAI 2019 Un modelo de lenguaje basado en transformador diseñado para generar texto similar a un
humano y realizar diversas tareas de PNL, incluida la traducción de idiomas, el resumen
y la respuesta a preguntas.
roberta Facebook 2019 Un modelo basado en BERT diseñado para mejorar el rendimiento de las tareas de PNL
entrenando el modelo en un conjunto de datos más grande y utilizando un método de
entrenamiento más eficiente.
DeBERTa microsoft 2020 Un modelo basado en BERT diseñado para mejorar el rendimiento de las tareas de PNL
desacoplando los componentes codificador y decodificador del modelo.
GPT3 AbiertoAI 2020 Un modelo actualizado de GPT2 entrenado en un conjunto de datos más masivo y capaz
de generar resultados de mayor calidad.
Al demostrar que los LLM se pueden utilizar para un aprendizaje rápido y sobresalir sin "recopilación de datos específicos de tareas a
gran escala o actualización de parámetros del modelo", GPT3 inspiraría a las empresas a construir modelos aún más grandes, como
MegatronTuring Natural Language Generation con 530 mil millones parámetros, PaLM con 540 mil millones y WuDao 2.0 con
impresionantes 1,75 billones de parámetros.
Aprendizaje no supervisado y autosupervisado

BERT no fue revolucionario sólo porque era un modelo bidireccional, sino también porque se entrenó mediante aprendizaje no supervisado.
El aprendizaje no supervisado se refiere a algoritmos de aprendizaje automático que encuentran patrones en conjuntos de datos sin
etiquetar sin intervención humana. En el caso de BERT, el modelo tuvo que extraer patrones de páginas de Wikipedia en lenguaje sencillo
por sí solo durante el entrenamiento. A menudo se considera que esto es IA en su forma más pura.
Los modelos de aprendizaje no supervisados utilizan bucles de retroalimentación para aprender y mejorar su desempeño. Esto
implica obtener retroalimentación sobre si una predicción o clasificación fue correcta o incorrecta, que el modelo utiliza para guiar sus
decisiones futuras.
Los bucles de retroalimentación son la razón por la que algunos diferencian entre no supervisados y autosupervisados.
aprendiendo. Los modelos de aprendizaje autosupervisados no tienen circuitos de retroalimentación sino que utilizan señales de supervisión

para obtener retroalimentación durante el entrenamiento. Estas señales se generan automáticamente a partir de datos sin anotaciones
humanas.
Tanto las técnicas de aprendizaje autosupervisadas como las no supervisadas tienen una ventaja clave sobre el aprendizaje supervisado:
dependen del modelo para crear etiquetas y extraer características por sí solo, en lugar de exigir la intervención humana. Esto
ayuda a las empresas a entrenar modelos sin procesos de etiquetado de datos que consumen mucho tiempo ni proporcionar
comentarios humanos sobre los resultados del modelo.
El aprendizaje autosupervisado es actualmente el enfoque dominante para la formación previa de grandes modelos de lenguaje y, a menudo,
se recomienda a las empresas que desean crear los suyos propios.
Beneficios de GPT frente a Bert
GPT (Transformador generativo preentrenado) y BERT (Representaciones de codificador bidireccional de transformadores) son
modelos de procesamiento del lenguaje natural (NLP) muy avanzados y ampliamente utilizados.
Sin embargo, difieren en sus arquitecturas y casos de uso.
GPT es un modelo generativo que está entrenado para predecir la siguiente palabra en una oración dadas las palabras anteriores. Esta
capacitación previa permite a GPT generar oraciones coherentes y fluidas desde cero, lo que lo hace ideal para tareas de generación de
lenguaje, como completar textos, resumir y responder preguntas.
Por el contrario, BERT es un modelo discriminativo que está entrenado para clasificar oraciones o tokens en diferentes categorías,
como análisis de sentimientos, reconocimiento de entidades con nombre y clasificación de texto. Es un modelo bidireccional que considera
los contextos izquierdo y derecho de una oración para comprender el significado de una palabra, lo que lo hace muy eficaz para tareas
como el análisis de sentimientos y la respuesta a preguntas.
En términos de arquitectura, GPT utiliza un transformador unidireccional, mientras que BERT utiliza un transformador bidireccional.
Esto significa que GPT solo puede considerar el contexto izquierdo de una palabra al hacer predicciones, mientras que BERT
considera tanto el contexto izquierdo como el derecho.
Tanto GPT como BERT son modelos poderosos que han revolucionado el campo de la PNL. Su elección depende de la tarea
específica en cuestión, y los investigadores y profesionales suelen utilizar una combinación de ambos modelos para lograr resultados
óptimos.

Cómo las empresas pueden beneficiarse del uso

Modelos de lenguaje grandes
Las empresas necesitan abordar tareas relacionadas con los idiomas todos los días. Esto incluye tareas de texto más
obvias, como escribir correos electrónicos o generar contenido, pero también tareas como analizar datos de
pacientes en busca de riesgos para la salud o brindar compañía a los clientes. Todas estas tareas se pueden
automatizar utilizando modelos de lenguaje grandes.
Los modelos, o aplicaciones impulsadas por grandes modelos de lenguaje, pueden ayudar a las empresas a acelerar
muchas tareas complejas y, a menudo, ejecutarlas con un mayor nivel de precisión que los agentes humanos. Por
ejemplo, las empresas de tecnología pueden usarlos para escribir código más rápido, mientras que los bancos pueden
usarlos para minimizar el riesgo de error humano al analizar documentos en busca de indicios de fraude.
La automatización de tareas complejas, pero a menudo tediosas, permite a los empleados centrarse en tareas más
importantes y progresar más rápido. Veremos, por ejemplo, cómo las empresas de atención médica pueden utilizar los LLM
para generar datos clínicos sintéticos y utilizarlos para acelerar la investigación médica en la Parte 2.
Los LLM pueden beneficiar a las empresas de muchas otras maneras, dependiendo de cómo se utilicen. Algunos casos de
uso, como el análisis de sentimientos basado en LLM, les brindan información más profunda sobre su audiencia, mientras
que la predicción de la pérdida de clientes les permite alentarlos a permanecer en su empresa justo cuando estaban a punto
de dejarla. Además, las empresas pueden utilizar los LLM para ofrecer nuevos servicios basados en conversaciones, como
acompañantes especializados en IA.

Desafíos de los modelos de lenguaje grandes

Las empresas que quieran empezar a utilizar grandes modelos de lenguaje, o aplicaciones impulsadas por grandes modelos de lenguaje,
deben tener en cuenta algunos errores comunes relacionados con el LLM. A continuación se muestran algunos generales que son aplicables
independientemente de si un modelo se está personalizando, ajustando o construyendo desde cero.
1. Los modelos de lenguaje grandes son vulnerables a ejemplos contradictorios. Ejemplos contradictorios son
entradas diseñadas específicamente para engañar a los modelos y hacer que cometan un error. Esto puede generar
preocupaciones de seguridad, particularmente para empresas en industrias sensibles como la atención médica o las finanzas.
2. Los modelos de lenguaje grandes pueden carecer de interpretabilidad. La interpretabilidad se refiere a la capacidad de
Interpretar y predecir las decisiones de los modelos. Los modelos con baja interpretabilidad pueden ser difíciles de solucionar
y evaluar, ya que puede no estar claro cómo toman sus decisiones o qué tan precisas o imparciales son esas decisiones. Esto
puede resultar especialmente problemático en el contexto de casos de uso de alto riesgo, como la detección de fraude, y en
industrias que requieren un alto nivel de transparencia, como la atención médica y las finanzas.
3. Los modelos de lenguaje grandes pueden proporcionar respuestas genéricas y no personalizadas. Como tal, es posible que los
LLM no siempre respondan bien a la aportación humana o comprendan la intención detrás de ella. Esto se puede mejorar con
técnicas como el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF), que ayuda a los modelos a mejorar
su rendimiento con el tiempo en función de la retroalimentación humana positiva o negativa.
Aun así, los LLM a veces pueden reproducir los datos de texto que han visto durante la formación. Esto es problemático sólo
desde un ángulo ético, pero también puede exponer a las empresas a problemas legales y de derechos de autor no
deseados.
4. El uso de modelos de lenguaje grandes puede generar preocupaciones éticas. Es cuestionable si las empresas deberían utilizar los
LLM para tareas importantes de toma de decisiones, como decidir qué candidato es el más calificado basándose en los
currículums recopilados, especialmente sin supervisión humana.
Además, se debe evaluar si es ético utilizar LLM para tareas que normalmente serían realizadas por humanos,
principalmente trabajadores administrativos.
5. Los modelos de lenguaje grandes pueden generar contenido inapropiado y dañino. En esa nota,
Las empresas deben tener en cuenta que los LLM a menudo reciben capacitación en grandes corpus de textos de Internet,
lo que puede hacerlos propensos a generar contenido tóxico, sesgado y, de otro modo, inapropiado y dañino.
Las empresas que quieran crear LLM propietarios desde cero también deben abordar desafíos adicionales, como si tienen
suficiente potencia informática, almacenamiento y conjuntos de datos, experiencia y recursos financieros para desarrollar, implementar y
mantener los modelos.
Formas de crear LLM

Crear grandes modelos de lenguaje desde cero no siempre tiene sentido, especialmente para empresas cuyo negocio principal no está
relacionado con las tecnologías de IA o PNL. Dado que el proceso puede consumir mucho tiempo y consumir muchos recursos, es
más probable que la mayoría de las empresas opten por personalizar los modelos existentes según sus necesidades.

La personalización de los modelos base existentes, también llamados modelos previamente entrenados o PLM, generalmente se
puede dividir en tres pasos esenciales:
1. Encontrar un modelo de cimentación (PLM) adecuado. Esto requiere considerar el tamaño ideal del modelo,
tareas de capacitación y conjuntos de datos, proveedores de LLM y más.
2. Afinar el modelo. Los modelos base se pueden ajustar en un corpus específico y para un caso de uso específico. Por ejemplo, los
modelos base de clasificación de texto se pueden ajustar para el análisis de sentimientos o
capacitados en el uso de registros legales para dominar la terminología legal.
3. Optimización del modelo. Los modelos se pueden optimizar aún más utilizando técnicas como el aprendizaje por refuerzo a partir de la
retroalimentación humana (RLHF), donde el modelo se actualiza en función de la retroalimentación humana positiva o
negativa sobre sus predicciones o clasificaciones. RLHF parece particularmente prometedor, en parte debido a su uso en el popular
ChatGPT.
Alternativamente, las empresas pueden optar por personalizar únicamente los modelos base utilizando técnicas eficientes en los
parámetros, como adaptadores y ajuste p. La personalización puede producir modelos especialmente precisos cuando el modelo base
se entrena en tareas similares a las tareas posteriores seleccionadas. Por ejemplo, un modelo de clasificación de texto base puede
ser un buen candidato para la personalización para el análisis de sentimientos, ya que las dos tareas son muy similares. Gracias a
haber sido entrenado en clasificación de texto, el modelo puede aprovechar el conocimiento adquirido durante el entrenamiento para
realizar tareas de análisis de sentimientos más fácilmente.
Cómo evaluar los LLM

Los modelos de lenguaje grande (LLM) utilizan técnicas de aprendizaje profundo para analizar y generar lenguaje natural.
Estos modelos se han vuelto cada vez más populares debido a su capacidad para realizar una amplia gama de tareas relacionadas
con el lenguaje, como la traducción de idiomas, el resumen de textos y la respuesta a preguntas. Sin embargo, evaluar el
desempeño de los LLM no es una tarea sencilla y requiere un análisis cuidadoso de diferentes factores, como los datos de entrenamiento,
el tamaño del modelo y la velocidad de inferencia.
El elemento más crucial en la evaluación de los LLM es la calidad y cantidad de los datos de capacitación utilizados. Los datos de
capacitación deben ser diversos y representativos del idioma y dominio de destino para garantizar que el LLM pueda aprender y
generalizar patrones lingüísticos de manera efectiva. Además, los datos de capacitación deben anotarse con etiquetas o etiquetas
relevantes para permitir el aprendizaje supervisado, que es el enfoque más utilizado en los LLM.
Otro factor importante es el tamaño del modelo. Generalmente, los modelos más grandes tienen mejor rendimiento, pero también
requieren más recursos computacionales para entrenarse y ejecutarse. Por lo tanto, los investigadores suelen utilizar un equilibrio
entre el tamaño del modelo y el rendimiento, según la tarea específica y los recursos disponibles. También vale la pena señalar que los
modelos más grandes tienden a ser más propensos al sobreajuste, lo que puede conducir a un rendimiento deficiente de la
generalización de datos nuevos.
La velocidad de inferencia también debe utilizarse en la evaluación, especialmente cuando se implementan LLM en aplicaciones del
mundo real. Es deseable un tiempo de inferencia más rápido, ya que permite al LLM procesar grandes cantidades de datos de manera
oportuna y eficiente. Se han propuesto varias técnicas, como poda, cuantificación y destilación, para reducir el tamaño y mejorar la
velocidad de los LLM.

Para evaluar el desempeño de los LLM, los investigadores suelen utilizar puntos de referencia, que son conjuntos de datos
estandarizados y métricas de evaluación para una tarea particular relacionada con el idioma. Los puntos de referencia
permiten comparaciones justas entre diferentes modelos y métodos y ayudan a identificar las fortalezas y debilidades de los LLM. Los
puntos de referencia comunes incluyen GLUE (Evaluación de comprensión general del lenguaje), SuperGLUE y CoQA
(Respuesta a preguntas conversacionales).
Empresas notables en el campo LLM

El lanzamiento de BERT en 2018 y, más notablemente, el lanzamiento de GPT3 en 2020, impulsó tanto a las grandes empresas
tecnológicas como a las nuevas empresas más pequeñas a entrar en la carrera con sus propios LLM y enfoques
innovadores para el desarrollo de modelos. Las empresas más destacadas que desarrollan sus propios LLM en el momento de la
publicación se enumeran en la Tabla 3.
Tabla 3. Empresas destacadas que desarrollan LLM
Compañía LLM
AbiertoAI GPT3 Da Vinci (175B)
Laboratorios AI21 Jurásico1Jumbo (178B)
EleutherAI GPTNeoX (20B)
antrópico AntrópicoLM (52B)
Adherirse Cohere extragrande v20220609 (52.4B)
NVIDIA/Microsoft Generación de lenguaje natural MegatronTuring (MTNLG 530B)
microsoft Generación del lenguaje natural de Turing (TNLG 17B)
Google Modelo de lenguaje Pathways (PaLM 540B)
Meta Transformador abierto preentrenado (OPT175B)
Algunas de estas empresas ofrecen a otras organizaciones acceso a sus modelos. Por ejemplo, las empresas pueden personalizar
modos previamente entrenados desarrollados por OpenAI, Cohere o NVIDIA para tareas posteriores o integrarlos en sus productos
y sistemas internos a través de API.
Aplicaciones LLM populares desarrolladas por empresas emergentes
ChatGPT de OpenAI es, con diferencia, la aplicación LLM más popular desarrollada hasta la fecha. se estima que atrajo a más de 100
millones de usuarios en sólo dos meses después de su lanzamiento, lo que la convierte en la "aplicación para consumidores de más
rápido crecimiento de la historia".
Sin embargo, muchas otras nuevas empresas entraron al ring con sus propias aplicaciones basadas en LLM, a menudo
más especializadas y comercializadas. Una de las aplicaciones más populares son los generadores de contenido basados en LLM
como Jasper y Copy.ai. En comparación, Jasper cuenta con atender a más de 100.000 equipos globales, mientras que Copy.ai
afirma que ha atraído a más de 5.000.000 de usuarios desde su lanzamiento.
La Figura 4 muestra un ejemplo de un mensaje en lenguaje natural que los usuarios pueden ingresar en Copy.ai para
generar un esquema de publicación de blog.

Figura 4. Ejemplo de resultados de una indicación en lenguaje natural
Otros ejemplos de aplicaciones populares impulsadas por LLM incluyen la querida herramienta de escritura y revisión
gramatical, Grammarly, y GitHub Copilot, un asistente de codificación impulsado por Codex que puede ayudar a los
desarrolladores a escribir y aprender código.
La Parte 2 cubrirá más formas en que las empresas y las nuevas empresas pueden aprovechar los LLM para crear aplicaciones
especializadas para la generación de contenido, detección de anomalías, clasificación de toxicidad y otros casos de uso
avanzados de PNL. También proporcionará ejemplos concretos de cómo se pueden personalizar aún más para responder a
las necesidades de diversas industrias, como finanzas, atención médica y telecomunicaciones, con la esperanza de
inspirar a las organizaciones a utilizar los LLM para desbloquear nuevas posibilidades en sus respectivas industrias.

Aviso
Este documento se proporciona únicamente con fines informativos y no debe considerarse como una garantía de una determinada funcionalidad, condición o calidad de un producto. NVIDIA Corporation (“NVIDIA”) no ofrece
ninguna representación ni garantía, expresa o implícita, en cuanto a la exactitud o integridad de la información contenida en este documento y no asume ninguna responsabilidad por los errores contenidos en este documento.
NVIDIA no tendrá ninguna responsabilidad por las consecuencias o el uso de dicha información ni por cualquier infracción de patentes u otros derechos de terceros que puedan resultar de su uso. Este documento no
constituye un compromiso para desarrollar, publicar o entregar ningún Material (definido a continuación), código o funcionalidad.
NVIDIA se reserva el derecho de realizar correcciones, modificaciones, mejoras, mejoras y cualquier otro cambio en este documento, en cualquier momento y sin previo aviso.
El cliente debe obtener la información relevante más reciente antes de realizar pedidos y debe verificar que dicha información esté actualizada y completa.
Los productos NVIDIA se venden sujetos a los términos y condiciones de venta estándar de NVIDIA proporcionados en el momento de la confirmación del pedido, a menos que se acuerde lo contrario en un acuerdo de
venta individual firmado por representantes autorizados de NVIDIA y el cliente ("Términos de venta"). Por la presente, NVIDIA se opone expresamente a la aplicación de los términos y condiciones generales del cliente con
respecto a la compra del producto NVIDIA al que se hace referencia en este documento. Este documento no genera obligaciones contractuales ni directa ni indirectamente.
Los productos NVIDIA no están diseñados, autorizados ni garantizados para ser adecuados para su uso en equipos médicos, militares, aeronáuticos, espaciales o de soporte vital, ni en aplicaciones en las que se pueda
esperar razonablemente que una falla o mal funcionamiento del producto NVIDIA provoque lesiones personales. muerte, o daños a la propiedad o al medio ambiente. NVIDIA no acepta ninguna responsabilidad por la
inclusión y/o uso de productos NVIDIA en dichos equipos o aplicaciones y, por lo tanto, dicha inclusión y/o uso es bajo el propio riesgo del cliente.
NVIDIA no representa ni garantiza que los productos basados en este documento sean adecuados para un uso específico. NVIDIA no necesariamente realiza las pruebas de todos los parámetros de cada producto. Es
responsabilidad exclusiva del cliente evaluar y determinar la aplicabilidad de cualquier información contenida en este documento, garantizar que el producto sea adecuado para la aplicación planificada por el cliente y realizar
las pruebas necesarias para la aplicación a fin de evitar un incumplimiento de la aplicación. o el producto. Las debilidades en los diseños de productos del cliente pueden afectar la calidad y confiabilidad del producto NVIDIA
y pueden resultar en condiciones y/o requisitos adicionales o diferentes a los contenidos en este documento. NVIDIA no acepta ninguna responsabilidad relacionada con ningún defecto, daño, costo o problema que pueda
basarse o atribuirse a: (i) el uso del producto NVIDIA de cualquier manera que sea contraria a este documento o (ii) los diseños de productos del cliente.
No se otorga ninguna licencia, ya sea expresa o implícita, bajo ningún derecho de patente, copyright u otro derecho de propiedad intelectual de NVIDIA en virtud de este documento. La información publicada por NVIDIA
sobre productos o servicios de terceros no constituye una licencia de NVIDIA para utilizar dichos productos o servicios ni una garantía o respaldo de los mismos. El uso de dicha información puede requerir una licencia de un
tercero bajo las patentes u otros derechos de propiedad intelectual del tercero, o una licencia de NVIDIA bajo las patentes u otros derechos de propiedad intelectual de NVIDIA.
La reproducción de la información contenida en este documento solo está permitida si NVIDIA la aprueba previamente por escrito, se reproduce sin modificaciones y en pleno cumplimiento de todas las leyes y regulaciones
de exportación aplicables, y va acompañada de todas las condiciones, limitaciones y avisos asociados.
ESTE DOCUMENTO Y TODAS LAS ESPECIFICACIONES DE DISEÑO DE NVIDIA, TABLAS DE REFERENCIA, ARCHIVOS, DIBUJOS, DIAGNÓSTICOS, LISTAS Y OTROS DOCUMENTOS (JUNTOS Y POR SEPARADO,
“MATERIALES”) SE PROPORCIONAN “TAL CUAL”. NVIDIA NO OFRECE NINGUNA GARANTÍA, EXPRESA, IMPLÍCITA, LEGAL O DE OTRA MANERA CON RESPECTO A LOS MATERIALES, Y RECHAZA
EXPRESAMENTE TODAS LAS GARANTÍAS IMPLÍCITAS DE NO INFRACCIÓN, COMERCIABILIDAD E IDONEIDAD PARA UN PROPÓSITO PARTICULAR. EN LA MEDIDA EN QUE NO LO PROHIBA LA LEY, EN
NINGÚN CASO NVIDIA SERÁ RESPONSABLE DE NINGÚN DAÑO, INCLUYENDO, SIN LIMITACIÓN, CUALQUIER DAÑO DIRECTO, INDIRECTO, ESPECIAL, INCIDENTAL, PUNITIVO O CONSECUENTE, CUALQUIER
CAUSA Y INDEPENDIENTE DE LA TEORÍA DE RESPONSABILIDAD, QUE SURJA DE CUALQUIER USO DE ESTE DOCUMENTO, AUNQUE NVIDIA HA SIDO INFORMADA DE LA POSIBILIDAD DE TALES DAÑOS. Sin
perjuicio de los daños en los que pueda incurrir el cliente por cualquier motivo, la responsabilidad total y acumulativa de NVIDIA hacia el cliente por los productos descritos en este documento estará limitada de acuerdo con
los Términos de venta del producto.
Marcas registradas
NVIDIA y el logotipo de NVIDIA son marcas comerciales y/o marcas comerciales registradas de NVIDIA Corporation en los EE. UU. y otros países. Otros nombres de empresas y productos pueden ser marcas comerciales
de las respectivas empresas con las que están asociados.
Derechos de autor
© 2023 Corporación NVIDIA. Reservados todos los derechos.
Corporación NVIDIA | 2788 San Tomás Expressway, Santa Clara, CA 95051
http://www.nvidia.com
Tabla de contenido
Prefacio ................................................. ................................................. ................................................. ..3
Glosario................................................. ................................................. ................................................. .5
Introducción a los LLM................................................ ................................................. ................................8
¿Qué son los modelos de lenguaje grande (LLM)? ................................................. ........................................8
Modelos de lenguaje básico frente a modelos de lenguaje perfeccionados................................. ................11
Evolución de los modelos de lenguajes grandes ................................................ ................................................. ..11
Redes neuronales................................................ ................................................. ........................12

Transformadores ................................................. ................................................. ................................14
Cómo pueden beneficiarse las empresas del uso de modelos de lenguaje grandes.................................... ................20
Desafíos de los modelos de lenguaje grandes................................................. ................................................. 21
Formas de desarrollar un LLM................................................ ................................................. ................................21
Cómo evaluar los LLM................................................ ................................................. ........................22
Empresas destacadas en el campo LLM................................................ ................................................. ....23
Aplicaciones LLM populares desarrolladas por empresas emergentes.................................... ................................................. ..23

IA - Guia para Principiantes en IA (Nvidia)

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

IA - Guia para Principiantes en IA (Nvidia)

Cargado por

Copyright:

Formatos disponibles

Machine Translated by Google

Una guía para principiantes sobre

Una guía para principiantes sobre modelos de lenguaje grandes 3

Para lograr estos objetivos, el libro se divide en tres partes:

Una guía para principiantes sobre modelos de lenguaje grandes 4

imágenes y audio, en lugar de simplemente analizarlo.

Una guía para principiantes sobre modelos de lenguaje grandes 5

distribuciones de probabilidad de palabras u otros tokens basándose en un gran

corpus anotado. Se basa menos en reglas y más en datos.

Transformador Un tipo de arquitectura de red neuronal diseñada para procesar datos

secuenciales de forma no secuencial.

estandarizarse y ajustarse fácilmente a un formato predefinido que los algoritmos de

aprendizaje automático pueden procesar rápidamente.

de un PLM y ajustarlos a las tareas o datos deseados.

parámetros seleccionados de un PLM en lugar de actualizar todo el modelo. Implica

el uso de técnicas eficientes en parámetros (PEFT).

tareas o conjuntos de datos mientras se preserva y aprovecha el conocimiento

modelo y permiten un entrenamiento más rápido y, a menudo, predicciones más

personalizar los modelos mediante la inserción de incrustaciones de tokens virtuales

entre incrustaciones de tokens discretas o reales.

personalización mientras se mantienen congelados los pesos PLM originales.

y financiero, en lugar de un solo dominio.

Una guía para principiantes sobre modelos de lenguaje grandes 6

Rendimiento Una medida de la eficiencia y velocidad del modelo. Se refiere a la

Latencia La cantidad de tiempo que un modelo necesita para procesar entradas

Una guía para principiantes sobre modelos de lenguaje grandes 7

Introducción a los LLM

¿Qué son los modelos de lenguaje grande (LLM)?

Una guía para principiantes sobre modelos de lenguaje grandes 8

1. Están entrenados utilizando grandes cantidades de datos.

Tabla 1. Comparación de MT­NLG y GPT­3

Modelo de lenguaje grande Número de Número de tokens en

Modelo de Generación (MT­NLG)

Una guía para principiantes sobre modelos de lenguaje grandes 9

Figura 1. Respuesta generada por GPT­3.

Una guía para principiantes sobre modelos de lenguaje grandes 10

Modelos de lenguaje básicos versus modelos de lenguaje

Evolución de los modelos de lenguaje grandes

Una guía para principiantes sobre modelos de lenguaje grandes 11

2. Transformers PNL se puso en marcha con el auge de la arquitectura de transformadores en 2017.

Una guía para principiantes sobre modelos de lenguaje grandes 12

Cada red neuronal tiene al menos tres capas:

> La capa de entrada acepta datos y los pasa al resto de la red.

> La capa de salida genera una predicción o clasificación basada en la entrada.

“gato”, “gatos”, perro”, “perros”

Los sustantivos en plural tienen el sufijo "­s".

Los sustantivos en plural van seguidos de verbos en plural.

Una guía para principiantes sobre modelos de lenguaje grandes 13

Una guía para principiantes sobre modelos de lenguaje grandes 14

María tenía un corderito.

"cuyo vellón era blanco como la nieve"

Una guía para principiantes sobre modelos de lenguaje grandes 15

María tenía un corderito.

1. María tenía un corderito.

2. Un corderito tenía a María.

3. Tenía una corderita María.

Una guía para principiantes sobre modelos de lenguaje grandes dieciséis

Figura 3. Procesamiento de datos secuenciales en un LSTM

Fuente: La atención es todo lo que necesitas

"Tengo una máscara".

Una guía para principiantes sobre modelos de lenguaje grandes 17

Otros modelos de lenguaje grandes

La Tabla 2 muestra una cronología de los lanzamientos consiguientes de LLM.

Tabla 1. Comparación de MTNLG y GPT3

Modelo de Generación (MTNLG)

Figura 1. Respuesta generada por GPT3.

Los sustantivos en plural tienen el sufijo "s".

AbiertoAI GPT3 Da Vinci (175B)

Laboratorios AI21 Jurásico1Jumbo (178B)

EleutherAI GPTNeoX (20B)

antrópico AntrópicoLM (52B)

NVIDIA/Microsoft Generación de lenguaje natural MegatronTuring (MTNLG 530B)

microsoft Generación del lenguaje natural de Turing (TNLG 17B)

Meta Transformador abierto preentrenado (OPT175B)