Está en la página 1de 13

Revisión del Artículo de

Subramanyam et al. (2021)


AMMU: A SURVEY OF TRANSFORMER-BASED BIOMEDICAL PRETRAINED LANGUAGE MODELS.

MARCOS VÁZQUEZ
2

BERT
• Bidereccional (Context)
• Encoder
• Representation
• Transformer
3
Embedding Layer

CLS Buenos días SEP ¿


Entrada Cómo estás ?
= = = = = = = =
Word
Embedding

Segment + + + + + + + +
Frase Frase Frase Frase Frase Frase Frase Frase
Embedding A A A A B B B B
+ + + + + + + +
PE(0,0) PE(1,2i +1) PE(2,2i) PE(3,2i +1) PE(4,2i) PE(5,2i +1) PE(6,2i) PE(7,2i +1)
Position
PE(0,2)
Embedding PE(0,4)

( )
PE(0,6) 𝑝𝑜𝑠
PE ( pos , 2 i) =sin 2𝑖
𝑡𝑎𝑚
10.000
4
Self - Attention

El Filtro de Valor representa con valores


El Filtro de Atención es una tabla Filtro de altos las relaciones entre embbedings
donde las columnas y las filas son Valor más importantes, mientras que con
los embeddings y en la posición (i, bajos los menos importantes.
j) se encuentra lo relacionado que
está el término i con el j.
Filtro de
x
Atención Value

Query x Embedding
Key

Embedding
Embedding
5
Self - Attention

Los Transformers concatenan varias capas de self-attention y cada una da importancia a distintas partes de la frase.

Filtro de
Valor

Filtro de Filtro de
Capa Lineal
Valor Valor

Filtro de
Valor
6
Pre-Training Tasks

Prentrenado con grandes conjuntos de datos (Wikipedia y Google Books)

1. Enmascarar
 Marcar con la etiqueta [MASK] palabras y entrenar la red para encontrar estas palabras.
 Esto permite analizar el texto de manera bidimensional y codificar la palabra en base al
contexto.
2. Predicción de la siguiente Frase
 Decidir si una frase es continuación de otra.
 Esto permite representar relaciones entre frases.
3. Predicción del orden de dos frases
7
Pretraining

Mixed-Domain Pretraining Domain-Specific Pretraining


(DSPT)
Prentrenamiento Prentrenamiento • El vocabulario de la Wikipedia
Continuo Simultaneo puede no corresponder con la del
dominio
• Standard en NLP Biomedico • No requieren grandes
conjuntos de datos del dominio
• Requiere grandes conjuntos de
datos del dominio
8
Fine-Tuning Methods

 El prentrenamiento en grandes conjuntos de datos con tareas generales de modelos


muy robustos.
 Pero el modelo necesita un conocimiento específico en la tarea y del dominio.
 Esto se puede lograr en la fase final del entrenamiento con el Fine-Tunning:
 Misma Tarea distinto dominio.
 Misma Tarea mismo dominio (más específico).
 Distinta tarea mismo dominio.
 Distinta tarea distinto dominio.
9
Pretraining Corpus

 Registros electrónicos de salud


 Detalles del tratamiento desde el ingreso hasta el alta
 Contiene información confidencial por lo que deben ser anonimizados si se intercambian.
 Incluyen datos estructurados y no estructurados.
 Los datos no estructurados incluyen notas clínicas:
 La información más valiosa en investigación y aplicaciones.
 Difícil y costosa de extraer manualmente
 Necesidad de métodos automáticos de extracción de información.
 Ejemplo: MIMIC  https://physionet.org/content/mimiciii-demo/1.4/
10
Pretraining Corpus

 Radiology Reports
 Realizado por radiólogo para la interpretación médica de resultados de imágenes médicas.
 Social Media
 Muy útil en algunos dominios:
 Extracción y clasificación de entidades clínicas
 Interacciones automáticas con Paciente
 Literatura científica
 Mayor especificidad del dominio
 Ejemplo: Pubmed  https://pubmed.ncbi.nlm.nih.gov/download/
11
BIOMEDICAL NLP TASKS

Tarea Descripción Ejemplo


Natural Language Inference Identifica las relaciones entre dos frases. Comprobar si diagnósticos a una pregunta médica
están relacionados, son neutrales o se contradicen.
[2]
Entity Extraction Extraer características de datos clínicos no Extracción de información a través de preguntas.
estructurados [3]
Text Classification Asignar a textos una etiqueta prestablecida Clasificación de notas sobre el Alzehimer. [4]

Semantic Textual Similarity Identifica como de similares son dos frases, Detecta frases con significados repetidos en datos
relacionado con NLI. clínicos [5]
Question Answering Acelerar y acercar al público general la Aplicaición de transfer learning al problema de
extracción de información biomédica respuestas a preguntas biomédicas [6]
Text Summarization Reducir la extensión de datos médicos Resumir artículos científicos biomédicos [7]
manteniendo la información más importante
12
Bibliografía

 [1] Kalyan, K. S., Rajasekharan, A., & Sangeetha, S. (2021). AMMU: A Survey of
Transformer-based Biomedical Pretrained Language Models. Journal of
biomedical informatics, 103982.
 [2] C. Cengiz, U. Sert, and D. Yuret, “Ku ai at mediqa 2019: Domainspecific pre-
training and transfer learning for medical nli,” in Proceedings of the 18th BioNLP
Workshop and Shared Task, 2019
 [3] C. Sun, Z. Yang, L. Wang, Y. Zhang, H. Lin, and J. Wang, “Biomedical named entity
recognition using bert in the machine reading comprehension framework,” Journal
of Biomedical Informatics, vol. 118, p. 103799, 2021.
13
Bibliografía

 [4] Z. Shen, Y. Yi, A. Bompelli, F. Yu, Y. Wang, and R. Zhang, “Extracting lifestyle factors for
alzheimer’s disease from clinical notes using deep learning with weak supervision,” arXiv
preprint arXiv:2101.09244, 2021
 [5] Y. Xiong, S. Chen, Q. Chen, J. Yan, and B. Tang, “Using characterlevel and entity-level
representations to enhance bidirectional encoder representation from transformers-based
clinical semantic textual similarity model: Clinicalsts modeling study,” JMIR Medical
Informatics, vol. 8, no. 12, p. e23357, 2020.
 [6] A. Akdemir and T. Shibuya, “Transfer learning for biomedical question answering.” 2020.
 [7] M. Moradi, G. Dorffner, and M. Samwald, “Deep contextualized embeddings for
quantifying the informative content in biomedical text summarization,” Computer methods
and programs in biomedicine, vol. 184, p. 105117, 2020.

También podría gustarte