Está en la página 1de 9

Voy a hacer un resumen sobre este

artículo que habla sobre la utilización


modelos basados en Transformers para
solucionar problemas de lenguaje natural
en biomedicina pero servirá de excusa
para ver como funciona estos modelos y
como aplicarlos a cualquier ámbito.
• Estos modelos han adquirido una especial importancia en
NLP desde que se unieron los Transformers que permiten el
análisis bidireccional de secuencias de palabras con técnicas
de transfer learning.
• El primer modelo con estas características fue Bert.
• Nos centraremos en este modelo para explicar esta nueva
corriente de modelos.
• A la derecha tenemos un Transformer que se divide en el
codificador y el decodificador. Bert solo tiene el codificador.
• Nos centraremos ahora en explicar las partes más
importantes de este modelo.
•Bert utiliza una estructura de dos frases que
están separadas por tokens artificiales.

•La capa de embedding no solo se forma con


la vectorización de los tokens. Se añaden
otras vecorizacones como la frase a la que
pertenece o en el ámbito biomédico la edad
o el sexo del paciente.
• También hay un embbeding de posición. Se podría poner
directamente la posición pero las redes neuronales no funcionan bien
con secuencias variables de números.

• Por lo que se puede hacer una normalización 0-1 pero tampoco es


una buena idea porque las mismas palabras pueden tener distintos
valores para una misma posición.

• La solución elegida es utilizar frecuencias. La fórmula que se utiliza es


la que se encuentra abajo a la derecha.
• Otra parte importante es la capa de atención del
transformer. En esta capa se introducen tres veces los
embbedings que hemos sacado de la capa anterior.
• Los dos primeros se multiplican para dar un Filtro de Atención
que es una tabla donde se encuentra lo relacionado que están los
tokens de la frase.
• La solución de esta capa se vuelve a multiplicar con otro de los
embbedings lo que permite sacar el Filtro de Valor que devuelve
las relaciones entre los términos más importantes de la frase.
• Los Transformers concatenan varias capas de self-attention y cada
una da importancia a distintas partes de la frase.
Estas redes se entrenan con grandes conjuntos de datos
utilizando problemas simples que les permitan codificar
relaciones entre:
• palabras como en el método de enmascarar en el que se
cambian varias palabras por una etiqueta y se entrena a la
red para averiguar esa palabra en base al contexto.
• Y para codificar relaciones entre frases como en problemas
de averiguar si dada dos frases la segunda es la siguiente de
la primera. O averiguar el orden de dos frases.
• Estas redes se pueden entrenar añadiendo un corpus
general lo que permite aumentar el tamaño de conjunto
de entrenamiento. O solo con textos del dominio lo que
permite que el vocabulario concuerde con el lenguaje
utilizado en ese área de conocimiento.

• En datos biomédicos se suele utilizar un entrenamiento


simultaneo con corpus generales y del dominio. Lo que
requiere grandes conjuntos de datos del dominio. Pero es
algo que suele ser así en el ámbito biomédico.
• El prentrenamiento en grandes conjuntos de datos con
tareas generales de modelos muy robustos. Pero el modelo
necesita un conocimiento específico en la tarea y del
dominio. Esta tarea se denomina Fine-tunning.
Registros electrónicos de salud: Detalles del tratamiento desde el
ingreso hasta el alta, Contiene información confidencial por lo que
deben ser anonimizados si se intercambian. Los datos más valiosos y
complicados de extraer son las notas clínicas por lo que se suele utilizar
técnicas de NLP para extraerlos.

Redes sociales: Sorprendentemente es muy útil en ciertos dominios:


• Extracción y clasificación de entidades clínicas
• Interacciones automáticas con Paciente
• Literatura científica: Este tipo de documentos tienen una Mayor
especificidad del dominio. Pero suelen ser muy largos por lo que
suelen utilizar técnicas de NLP para resumirlos o extraer
características.

También podría gustarte