Está en la página 1de 8

Generación de Texto a Imagen con base en Dall-E 2

y especial enfoque a rostros


Javier Chuquillanqui Mendoza 1 , Edwin Isidro Zuñiga Escobar 2 ,
Jesús Ricardo Flores Montenegro 3
1
Maestrı́a en Inteligencia Artificial, Universidad Internacional de la Rioja, México
2
Maestrı́a en Inteligencia Artificial, Universidad Internacional de la Rioja, México
3
Maestrı́a en Inteligencia Artificial, Universidad Internacional de la Rioja, México
E-mail: williams@ucl.ac.uk, edwin.zunigaes@hotmail.com, autor3@correo.com

Abstract. All articles must contain an abstract. This document describes the preparation
of a conference paper to be published in Journal of Physics: Conference Series using LATEX 2ε
and the jpconf.cls class file. The abstract text should be formatted using 10 point font and
indented 25 mm from the left margin. Leave 10 mm space after the abstract before you begin
the main text of your article. The text of your article should start on the same page as the
abstract. The abstract follows the addresses and should give readers concise information about
the content of the article and indicate the main results obtained and conclusions drawn. As the
abstract is not part of the text it should be complete in itself; no table numbers, figure numbers,
references or displayed mathematical expressions should be included. It should be suitable for
direct inclusion in abstracting services and should not normally exceed 200 words. The abstract
should generally be restricted to a single paragraph. Since contemporary information-retrieval
systems rely heavily on the content of titles and abstracts to identify relevant articles in literature
searches, great care should be taken in constructing both.

1. Introducción
Uno de los avances mas destacados dentro del área de la Inteligencia Artificial que ha habido
en los últimos años llegó con el desarrollo de las Generative Adversarial Networks, y estas han
adquirido aun mas revuelo por los resultados que se han obtenido de estas. Uno de los ejemplos
mas populares es Dall-E 2, la cual es una red neuronal capaz de generar imágenes a partir de una
oración. Esta red esta entrenada con una extensa diversidad de temas que van desde personajes
históricos hasta pelı́culas populares de los últimos años; e incluso cuenta con la capacidad de
producir imágenes usando diferentes estilos, como lo es arte digital o dibujo a lápiz.
En el presente trabajo se proponen algunas mejoras a la arquitectura de Dall-E 2 para atacar
el problema con el que cuenta a la hora de generar rostros, pues en las imágenes mas complejas los
rostros siempre destacan por no ser los mejores. A continuación se muestran algunos conceptos
importantes para entender mejor los resultados aquı́ expuestos.

1.1. Text to Image Generation


La generación de texto a imágenes no tiene mucho tiempo de desarrollo. Van siendo 7 años
desde el trabajo de [Mansimov] referente a la sı́ntesis de texto a imagen, que origino que
muchos modelos de aprendizaje automático contemporáneos de texto a imagen lo tomen como
referencia. El éxito del trabajo realizado por [Mansimov] se debe a que uso el modelo DRAW,
este modelo usa redes neuronales recurrentes para poder asociar las entradas de texto y las
imágenes generadas, dando mejores resultados para modelos contra los cuales competı́a en su
época.
Durante los años salieron varias mejoras al trabajo realizado por [Mansimov], como la
siguiente gran mejora fue la de usar una red generativa de adversarios (GAN)[Goodfellow], en
vez de un auto encoder que es el que se propuso inicialmente. Este cambio al modelo inicial hizo
que las imágenes se produjeran con una mejor fidelidad al resultado esperado.Más recientemente
[Cho] propuso la mejora de las entradas utilizando mascaras para las palabras sobre un modelo
pre entrenado, dando resultados mucho más fieles a lo esperado.

1.2. Dall-E 2
La mejora más grande vino de la mano de la implementación de la creación de DALL-E 2,
la cual agrega un modelo CLIP Latents [CLIP], esta red neuronal es capaz de asociar texto a
imagen que al modificar algún vector del texto de entrada puede crear variantes en la imagen.
Este planteamiento también maneja los conceptos de decodificador y codificador, que permiten
la utilización del modelo a una gran variedad de imágenes.

1.3. Generación de rostros mediante Style GAN 2


Se ha observado que en [Ref] se cuenta con una aplicación de Generative Adversarial Network,
la cual es capaz de generar imágenes de rostros humanos bastante realistas. Esta usa una
arquitectura basada en “estilo”; que es modular y feed fordward, además tiene la caracterı́stica
de que transforma la entrada en un latente intermedio y reparte la informacion de entrada a lo
largo de la red neuronal, tal como se puede observar en la Figura 1.

Figure 1. [a] Arquitectura base de StyleGAN. [b] Arquitectura


a detalle de StyleGAN. [c] Arquitectura de StyleGAN2. [d]
Modularización de la arquitectura. [REF]

En [Ref] se analiza principalmente el desempeño de la red cuando es entrenada con el dataset


de “Flickr Faces High Quality”, la cual cuenta con 70000 imágenes que contienen rostros
pertenecientes a diferentes edades, etnias y fondos. A su vez se analizaron unas técnicas de
regularización que ayudan a producir una GAN cuyos resultados sean mas realistas, entre las
más destacadas se encuentra el crecimiento progresivo y la regularización del largo de camino.
1.4. Generación de rostros guiada por memoria
Con el avance del aprendizaje profundo, las personas ya no están satisfechas con la comprensión
visual en fotos/videos tomados con cámara. La generación de contenido visual surge como
otra dirección de investigación, ya que las imágenes y los videos son mucho más eficientes para
la presentación e intercambio de información. Persona generación es sintetizar imágenes de
personas fotorrealistas y videos bajo demanda. el largo plazo El objetivo es generar humanos
digitales con apariencias, expresiones y comportamientos reales como reales. personas.

1.4.1. Repintado de imágenes de DeepFill


Repintado de imágenes de DeepFill tiene como objetivo rellenar los pı́xeles que faltan en una
imagen de manera que el resultado sea visualmente realista y semánticamente correcto. Los
algoritmos de pintura de imágenes se pueden usar para eliminar objetos que distraen o retocar
regiones no deseadas en las fotos y se pueden extender a otras tareas, incluido el recorte de
imágenes, la rotación, la unión, la reorientación, la recomposición, la compresión y la super
resolución. armonización y más.
Los enfoques tradicionales basados en parches, como Patch Match copian parches de fondo
de acuerdo con la coincidencia de caracterı́sticas de bajo nivel (p. ej., distancia euclidiana en
valores RGB de pı́xeles) y los pegan en las regiones que faltan. Estos enfoques pueden sintetizar
texturas estacionarias plausibles, pero fallan en regiones de imágenes no estacionarias como
rostros, objetos y escenas complicadas.

1.4.2. Deep Person Generation


Deep Person Generation ha atraı́do una gran atención de la investigación debido a sus
amplias aplicaciones en agentes virtuales, videoconferencias, compras en lı́nea y producción
de arte/pelı́culas. Con el avance del deep learning y la visualización las apariencias (rostro,
pose, tela) de la imagen de una persona se pueden generar o manipular fácilmente a pedido. En
esto encuesta, primero resumimos el alcance de la generación de personas y luego revisamos
sistemáticamente el progreso reciente y tendencias técnicas en la generación de personas
profundas, que cubren tres tareas principales: generación de cabeza parlante (cara), generación
de personas guiada por la pose (pose) y generación de personas orientada a la prenda (tela). Más
de doscientos Los documentos están cubiertos para una descripción completa, y los trabajos de
hitos se destacan para presenciar los principales avances técnico. Sobre la base de estas tareas
fundamentales, se investigan una serie de aplicaciones, por ejemplo, ajuste virtual, humano
digital, aumento generativo de datos. Esperamos que esta encuesta pueda arrojar algo de luz
sobre las perspectivas futuras de la generación de personas profundas, y proporciona una base
útil para aplicaciones completas hacia humanos digitales

2. Desarrollo
Para dar una solución al problema que tiene Dall-E 2 a la hora de generar imágenes que incluyan
rostros se proponen distintas acciones para mejorar el desempeño de esta aplicación. Estas
van desde expandir el conjunto de datos de entrenamiento a cambiar la arquitectura de la red
neuronal y agregar algunos regularizadores que mejoran la calidad de la imagen de salida.

2.1. Obtención del conjunto de datos


Para la generación del conjunto de datos que necesitamos para entrenar el modelo de inteligencia
artificial se usara una combinación de dos conjuntos de datos: uno de ellos es el “YFCC100M”,
el cual contiene una cantidad gigantesca de imágenes de las cuales el modelo será capaz de
aprender. Este conjunto de datos es de libre acceso y fue creado por Yahoo Labs usando
imágenes de Flickr, todo esto distribuido bajo licencia de Creative Commons. Adicionalmente
se puede usar el conjunto de datos de MS-COCO para robustecer el numero de parámetros
que podemos obtener de las diferentes imágenes. A ambos se les debe realizar un filtrado para
eliminar imágenes cuya calidad no sea muy buena o
El segundo conjunto de datos que se usa es el de “Flickr Faces High Quality” (FFHQ) que
contiene imágenes de rostros de personas pertenecientes a diferentes grupos de edad y etnias.
Agregando este ultimo conjunto al entrenamiento se consigue tener una fuente de aprendizaje
para que el modelo pueda aprender a extraer las caracterı́sticas de un rostro y pueda aplicarlo
mas adelante a la hora de generar nuevas imagenes. De esta manera se consiguen rostros mejor
distribuidos y con aspectos mas cercanos a la realidad.

2.2. Metodologı́a de entrenamiento


2.3. Arquitectura de red
El modelo es la combinación de la arquitectura creada para DALL-E 2[referencia] y el de
“Memory-Driven Text-to-Image Generation”[referencia], simplificando y combinando ambas
arquitecturas en uno solo modelo dedicado a la generación de rostros y es de la siguiente forma:

Figure 2. En la arquitectura propuesta las cajas verdes claras


representan los datos de entrada, las cajas englobadas en la caja gris
sera el proceso de fusión de caracterı́sticas, las caja naranja es el prior
y la caja verde final viene a ser el decodificador y salida final.

El modelo general empezara con obtener 1 o dos entradas, teniendo una entrada del texto a
representar gráficamente que representamos como m1, se le pasa a un modelo en-codificador de
texto que basado en las diferentes palabras del texto de entrada m1 generara un set de imágenes,
cabe mencionar que el modelo ya ha sido entrenado previamente con un conjunto de imágenes
y textos extenso.
La segunda entrada m2 puede ser opcional o no ya que es un set imágenes faciales que se
usara como banco de datos, con la finalidad de unir tanto texto como el banco de datos en una
sola salida, si no se llega a agregar el set se crea una generación aleatoria de rostros según lo visto
por [referencia], estas dos entradas X1 y X2 se combinaran en un pool Global de entrenamiento,
el pool global es importante porque permite tener las 2 entradas en un solo modelo de datos.
Del pool global se procederá a realizar una combinación de caracterı́sticas resaltantes y
tener un aproximado de las caracterı́sticas principales de cada una las entradas, este proceso
lo realizara el combinador de caracterı́sticas, siendo el resultado y1, que pasara al prior que se
encarga de crear imágenes para su representación de la forma CLIP [referencia], para finalmente
este resultado y2 será la entrada del encodificador de imágenes, donde teniendo el resultado y1
se procede a realizar las variaciones de caracterı́sticas secundarias de la imagen y preservar las
caracterı́sticas principales ası́ esta salida y3 será la imagen final de salida.

2.4. Experimentación

..

2.4.1. Pruebas realizadas


Las pruebas realizadas fueron de gran importancia en encontrar posibles mejoras o realizar
cambios a la arquitectura presentada, esto llevo a cambiar la arquitectura de forma que se
obtuvo una buena efectividad en la generación de imágenes. Las pruebas realizadas fueron:
Efectividad de las imágenes generadas
En esta prueba evalúa un total de 10000 imágenes las cuales serán generadas por el modelo
propuesto, varios humanos evaluaran las imágenes y generaran una opinión según la imagen que
se les presente, si la imagen es aceptable o si no lo es. Estas evaluaciones pueden ser subjetivas
en la evaluación de calidad final de la imagen, pero son muy efectivas al momento de descartar
imágenes deformadas, que son las imágenes sobre las cuales se enfoca las correcciones.
Comparación con otros modelos
Existen modelos que tienen propuestas casi similares, pero no enfocadas especı́ficamente al
rostro, para lo cual se evalúa los resultados de estos modelos contra los resultados que se obtiene
del modelo propuesto. Los datos de entrada deben ser iguales o similares, para tratar de obtener
una misma salida. Por ejemplo, se describe en el texto un mismo escenario y el banco de datos
que se utiliza será el mismo.
La efectividad de la imagen sin ser un modelo de combinación de caracterı́sticas
Una de las pruebas que se realizó para tratar de mejorar la calidad de las imágenes de salida
fue la de reemplazar el modelo de combinación de caracterı́sticas por dos bloques separados de
caracterı́sticas y que el prior lo obtenga como dos entradas diferentes, estas pruebas no fueron
satisfactorios ya que se pierde la caracterı́stica de darle simetrı́a al banco de datos del rastro con
la cara que se obtiene del texto, esto puede deberse a que no existe un punto referencia del cual
se pueda guiar el banco de datos para alinear a la cara, ya esta parte se realiza en el modelo de
combinación.

2.4.2. Resultados obtenidos


..

2.4.3. Comparación contra Dall-E 2

Se suelen tener subsecciones dependiendo del contenido del trabajo, aquı́ se explica todo lo
realizado: obtención de datos, tratamiento de datos, metodologı́as de trabajo, propuestas de
algoritmos, modelos, pruebas, experimentos, resultados obtenidos, etc. Se suelen incluir figuras
y tablas que ayudan a explicar la solución a la problemática a resolver.

3. Conclusiones
Conclusiones a partir de los resultados obtenidos y de los objetivos y/o problemática a resolver.
Suele incluirse las perspectivas (trabajo a futuro) que se visualizan para dar continuidad al
trabajo.
Figure 3. En la arquitectura propuesta las cajas verdes claras
representan los datos de entrada, las cajas englobadas en la caja gris
sera el proceso de fusión de caracterı́sticas, las caja naranja es el prior
y la caja verde final viene a ser el decodificador y salida final.

Referencias
Incluir por integrante de equipo al menos dos artı́culos de referencia, más otras fuentes consul-
tadas (sobre todo libros y/o reportes técnicos).

Utilizar el siguiente formato:

A typical (numerical) reference list might begin


[1] Karras, T., Laine, S., Aittala, M., Hellsten, J., Lehtinen, J. Aila, T. (2020). Analyzing and Improving the
Image Quality of StyleGAN. https://arxiv.org/pdf/1912.04958.pdf.
Figure 4. En la arquitectura propuesta las cajas verdes claras
representan los datos de entrada, las cajas englobadas en la caja gris
sera el proceso de fusión de caracterı́sticas, las caja naranja es el prior
y la caja verde final viene a ser el decodificador y salida final.

Figure 5. En la arquitectura propuesta las cajas verdes claras


representan los datos de entrada, las cajas englobadas en la caja gris
sera el proceso de fusión de caracterı́sticas, las caja naranja es el prior
y la caja verde final viene a ser el decodificador y salida final.

[2] Ramesh, A., Pavlov, M., Goh, G., Gray, S., Voss, C., Radford, A., Chen, M. Sutskever, I. (2021, 26 febrero).
Zero-Shot Text-to-Image Generation. https://arxiv.org/pdf/2102.12092v2.pdf.
[3] Ramesh, A., Dhariwal, P., Nichol, A., Chu, C. Chen, M. (2022, abril). Hierarchical Text-Conditional Image
Generation with CLIP Latents. https://arxiv.org/pdf/2204.06125.pdf.
[4] Mansimov, E., Parisotto, E., Lei Ba, J. Salakhutdinov, R. (2016, febrero). GENERATING IMAGES FROM
CAPTIONS WITH ATTENTION. https://arxiv.org/pdf/1511.02793.pdf.
[5] Goodfellow, I. J., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A. Bengio,
Y. (2014, junio). Generative Adversarial Nets. https://arxiv.org/pdf/1406.2661.pdf.
[6] Cho, J., Lu, J., Schwenk, D., Hajishirzi, H. Kembhavi, A. (2020, septiembre). X-LXMERT: Paint, Caption
and Answer Questions with Multi-Modal Transformers. https://arxiv.org/pdf/2009.11278.pdf.
[7] Radford, A., Wook Kim, J., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin,
P., Clark, J., Krueger, G. Sutskever, I. (2020, septiembre). Learning Transferable Visual Models From
Natural Language Supervision. https://arxiv.org/pdf/2103.00020.pdf.

También podría gustarte