0% encontró este documento útil (0 votos)
18 vistas1 página

Conceptos Avanzados de Transformers

Introducción a Conceptos avanzados de Transformers

Cargado por

ferleonmoloney
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
18 vistas1 página

Conceptos Avanzados de Transformers

Introducción a Conceptos avanzados de Transformers

Cargado por

ferleonmoloney
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Otro concepto clave es la codificación posicional.

A diferencia de las RNN, los transformadores procesan todas las palabras a la vez, por lo que
necesitan una forma de conocer el orden. GPT puede aprender este orden a través de embeddings posicionales entrenables (esto es diferente de
los sinusoidales que verás más adelante en BERT/traducción).

Finalmente, construyes un pequeño modelo GPT. Después del entrenamiento, intentas inferencia: alimentando un aviso y dejando que el
modelo genere texto un token a la vez. Esto introduce la idea de generación de texto autorregresiva.

Laboratorio 2: Preentrenamiento de modelos BERT (solo codificador)

Este laboratorio de BERT introduce el lado del codificador de los transformadores. A diferencia de GPT, BERT se centra en leer y entender y no
genera texto paso a paso. En su lugar, observa toda la oración a la vez (de manera bidireccional) y aprende a comprender profundamente el
contexto.

Para entrenar BERT, utilizas dos tareas de preentrenamiento:

Modelado de Lenguaje enmascarado (MLM): Oculta algunas palabras y pide al modelo que las adivine. Esto obliga al modelo a utilizar el
contexto tanto de la izquierda como de la derecha; por ejemplo, en “El perro está persiguiendo el ___”, BERT debe predecir “gato”.
Predicción de la Siguiente Oración (NSP): Proporciona al modelo dos oraciones y pregunta si la segunda sigue lógicamente a la primera.
Esto le ayuda a entender las relaciones entre oraciones, útil en tareas como preguntas y respuestas o resumir.

Embeddings de segmento: Dado que BERT a menudo trabaja con pares de oraciones, los embeddings de segmento ayudan a marcar ‘este token
pertenece a la oración A’ y ‘este a la oración B.’ El entrenamiento muestra cómo BERT aprende representaciones útiles para entender el
lenguaje, no solo para generarlo. Al final, puedes probar el modelo en tareas de pares de oraciones o predicción de palabras enmascaradas.

Lab 3: Modelo Transformer para la traducción de idiomas (codificador-decodificador)

En este laboratorio, combinas ambos mundos: un codificador (como BERT) + un decodificador (como GPT) en un transformador seq2seq
completo. Al igual que un traductor humano, lees toda la oración en alemán y luego produces cuidadosamente las palabras en inglés una por
una, siempre revisando el original.

Este laboratorio demuestra cómo los transformadores pueden mapear una secuencia a otra, no solo generar o entender dentro del mismo
idioma. Las aplicaciones van más allá de la traducción: la resumición, el diálogo e incluso el trabajo de código a texto funcionan de la misma
manera.

Arquitectura Codificador-Decodificador:
Codificador → Lee la oración completa en el idioma fuente (alemán).
Decodificador → Genera la oración objetivo palabra por palabra (inglés). El decodificador mira tanto las palabras pasadas que
generó COMO la oración completa en el idioma fuente.
Para entrenar BERT en PyTorch, preparas las entradas (tokens, segmentos, máscaras) para que el modelo pueda realizar ambas
tareas.
Comparamos la predicción con la palabra real → Calculamos la ‘pérdida’ → Ajustamos el modelo.

Autor(es)
Shilpa Giridhar

También podría gustarte