Preparing A Paper Using LaTeXefor Publication in Nombre Del Trabajo

Generación de Texto a Imagen con base en Dall-E 2
y especial enfoque a rostros

Javier Chuquillanqui Mendoza 1 , Edwin Isidro Zuñiga Escobar 2 ,
Jesús Ricardo Flores Montenegro 3
1
Maestrı́a en Inteligencia Artificial, Universidad Internacional de la Rioja, México
2
3
E-mail: williams@ucl.ac.uk, edwin.zunigaes@hotmail.com, autor3@correo.com
Abstract. All articles must contain an abstract. This document describes the preparation
of a conference paper to be published in Journal of Physics: Conference Series using LATEX 2ε
and the jpconf.cls class file. The abstract text should be formatted using 10 point font and
indented 25 mm from the left margin. Leave 10 mm space after the abstract before you begin
the main text of your article. The text of your article should start on the same page as the
abstract. The abstract follows the addresses and should give readers concise information about
the content of the article and indicate the main results obtained and conclusions drawn. As the
abstract is not part of the text it should be complete in itself; no table numbers, figure numbers,
references or displayed mathematical expressions should be included. It should be suitable for
direct inclusion in abstracting services and should not normally exceed 200 words. The abstract
should generally be restricted to a single paragraph. Since contemporary information-retrieval
systems rely heavily on the content of titles and abstracts to identify relevant articles in literature
searches, great care should be taken in constructing both.
1. Introducción
Uno de los avances mas destacados dentro del área de la Inteligencia Artificial que ha habido
en los últimos años llegó con el desarrollo de las Generative Adversarial Networks, y estas han
adquirido aun mas revuelo por los resultados que se han obtenido de estas. Uno de los ejemplos
mas populares es Dall-E 2, la cual es una red neuronal capaz de generar imágenes a partir de una
oración. Esta red esta entrenada con una extensa diversidad de temas que van desde personajes
históricos hasta pelı́culas populares de los últimos años; e incluso cuenta con la capacidad de
producir imágenes usando diferentes estilos, como lo es arte digital o dibujo a lápiz.
En el presente trabajo se proponen algunas mejoras a la arquitectura de Dall-E 2 para atacar
el problema con el que cuenta a la hora de generar rostros, pues en las imágenes mas complejas los
rostros siempre destacan por no ser los mejores. A continuación se muestran algunos conceptos
importantes para entender mejor los resultados aquı́ expuestos.
1.1. Text to Image Generation

La generación de texto a imágenes no tiene mucho tiempo de desarrollo. Van siendo 7 años
desde el trabajo de [Mansimov] referente a la sı́ntesis de texto a imagen, que origino que
muchos modelos de aprendizaje automático contemporáneos de texto a imagen lo tomen como
referencia. El éxito del trabajo realizado por [Mansimov] se debe a que uso el modelo DRAW,
este modelo usa redes neuronales recurrentes para poder asociar las entradas de texto y las
imágenes generadas, dando mejores resultados para modelos contra los cuales competı́a en su
época.
Durante los años salieron varias mejoras al trabajo realizado por [Mansimov], como la
siguiente gran mejora fue la de usar una red generativa de adversarios (GAN)[Goodfellow], en
vez de un auto encoder que es el que se propuso inicialmente. Este cambio al modelo inicial hizo
que las imágenes se produjeran con una mejor fidelidad al resultado esperado.Más recientemente
[Cho] propuso la mejora de las entradas utilizando mascaras para las palabras sobre un modelo
pre entrenado, dando resultados mucho más fieles a lo esperado.
1.2. Dall-E 2
La mejora más grande vino de la mano de la implementación de la creación de DALL-E 2,
la cual agrega un modelo CLIP Latents [CLIP], esta red neuronal es capaz de asociar texto a
imagen que al modificar algún vector del texto de entrada puede crear variantes en la imagen.
Este planteamiento también maneja los conceptos de decodificador y codificador, que permiten
la utilización del modelo a una gran variedad de imágenes.
1.3. Generación de rostros mediante Style GAN 2

Se ha observado que en [Ref] se cuenta con una aplicación de Generative Adversarial Network,
la cual es capaz de generar imágenes de rostros humanos bastante realistas. Esta usa una
arquitectura basada en “estilo”; que es modular y feed fordward, además tiene la caracterı́stica
de que transforma la entrada en un latente intermedio y reparte la informacion de entrada a lo
largo de la red neuronal, tal como se puede observar en la Figura 1.
Figure 1. [a] Arquitectura base de StyleGAN. [b] Arquitectura

a detalle de StyleGAN. [c] Arquitectura de StyleGAN2. [d]
Modularización de la arquitectura. [REF]
En [Ref] se analiza principalmente el desempeño de la red cuando es entrenada con el dataset

de “Flickr Faces High Quality”, la cual cuenta con 70000 imágenes que contienen rostros
pertenecientes a diferentes edades, etnias y fondos. A su vez se analizaron unas técnicas de
regularización que ayudan a producir una GAN cuyos resultados sean mas realistas, entre las
más destacadas se encuentra el crecimiento progresivo y la regularización del largo de camino.
1.4. Generación de rostros guiada por memoria
Con el avance del aprendizaje profundo, las personas ya no están satisfechas con la comprensión
visual en fotos/videos tomados con cámara. La generación de contenido visual surge como
otra dirección de investigación, ya que las imágenes y los videos son mucho más eficientes para
la presentación e intercambio de información. Persona generación es sintetizar imágenes de
personas fotorrealistas y videos bajo demanda. el largo plazo El objetivo es generar humanos
digitales con apariencias, expresiones y comportamientos reales como reales. personas.
1.4.1. Repintado de imágenes de DeepFill

Repintado de imágenes de DeepFill tiene como objetivo rellenar los pı́xeles que faltan en una
imagen de manera que el resultado sea visualmente realista y semánticamente correcto. Los
algoritmos de pintura de imágenes se pueden usar para eliminar objetos que distraen o retocar
regiones no deseadas en las fotos y se pueden extender a otras tareas, incluido el recorte de
imágenes, la rotación, la unión, la reorientación, la recomposición, la compresión y la super
resolución. armonización y más.
Los enfoques tradicionales basados en parches, como Patch Match copian parches de fondo
de acuerdo con la coincidencia de caracterı́sticas de bajo nivel (p. ej., distancia euclidiana en
valores RGB de pı́xeles) y los pegan en las regiones que faltan. Estos enfoques pueden sintetizar
texturas estacionarias plausibles, pero fallan en regiones de imágenes no estacionarias como
rostros, objetos y escenas complicadas.
1.4.2. Deep Person Generation

Deep Person Generation ha atraı́do una gran atención de la investigación debido a sus
amplias aplicaciones en agentes virtuales, videoconferencias, compras en lı́nea y producción
de arte/pelı́culas. Con el avance del deep learning y la visualización las apariencias (rostro,
pose, tela) de la imagen de una persona se pueden generar o manipular fácilmente a pedido. En
esto encuesta, primero resumimos el alcance de la generación de personas y luego revisamos
sistemáticamente el progreso reciente y tendencias técnicas en la generación de personas
profundas, que cubren tres tareas principales: generación de cabeza parlante (cara), generación
de personas guiada por la pose (pose) y generación de personas orientada a la prenda (tela). Más
de doscientos Los documentos están cubiertos para una descripción completa, y los trabajos de
hitos se destacan para presenciar los principales avances técnico. Sobre la base de estas tareas
fundamentales, se investigan una serie de aplicaciones, por ejemplo, ajuste virtual, humano
digital, aumento generativo de datos. Esperamos que esta encuesta pueda arrojar algo de luz
sobre las perspectivas futuras de la generación de personas profundas, y proporciona una base
útil para aplicaciones completas hacia humanos digitales
2. Desarrollo
Para dar una solución al problema que tiene Dall-E 2 a la hora de generar imágenes que incluyan
rostros se proponen distintas acciones para mejorar el desempeño de esta aplicación. Estas
van desde expandir el conjunto de datos de entrenamiento a cambiar la arquitectura de la red
neuronal y agregar algunos regularizadores que mejoran la calidad de la imagen de salida.
2.1. Obtención del conjunto de datos

Para la generación del conjunto de datos que necesitamos para entrenar el modelo de inteligencia
artificial se usara una combinación de dos conjuntos de datos: uno de ellos es el “YFCC100M”,
el cual contiene una cantidad gigantesca de imágenes de las cuales el modelo será capaz de
aprender. Este conjunto de datos es de libre acceso y fue creado por Yahoo Labs usando
imágenes de Flickr, todo esto distribuido bajo licencia de Creative Commons. Adicionalmente
se puede usar el conjunto de datos de MS-COCO para robustecer el numero de parámetros
que podemos obtener de las diferentes imágenes. A ambos se les debe realizar un filtrado para
eliminar imágenes cuya calidad no sea muy buena o
El segundo conjunto de datos que se usa es el de “Flickr Faces High Quality” (FFHQ) que
contiene imágenes de rostros de personas pertenecientes a diferentes grupos de edad y etnias.
Agregando este ultimo conjunto al entrenamiento se consigue tener una fuente de aprendizaje
para que el modelo pueda aprender a extraer las caracterı́sticas de un rostro y pueda aplicarlo
mas adelante a la hora de generar nuevas imagenes. De esta manera se consiguen rostros mejor
distribuidos y con aspectos mas cercanos a la realidad.
2.2. Metodologı́a de entrenamiento

2.3. Arquitectura de red
El modelo es la combinación de la arquitectura creada para DALL-E 2[referencia] y el de
“Memory-Driven Text-to-Image Generation”[referencia], simplificando y combinando ambas
arquitecturas en uno solo modelo dedicado a la generación de rostros y es de la siguiente forma:
Figure 2. En la arquitectura propuesta las cajas verdes claras

representan los datos de entrada, las cajas englobadas en la caja gris
sera el proceso de fusión de caracterı́sticas, las caja naranja es el prior
y la caja verde final viene a ser el decodificador y salida final.
El modelo general empezara con obtener 1 o dos entradas, teniendo una entrada del texto a
representar gráficamente que representamos como m1, se le pasa a un modelo en-codificador de
texto que basado en las diferentes palabras del texto de entrada m1 generara un set de imágenes,
cabe mencionar que el modelo ya ha sido entrenado previamente con un conjunto de imágenes
y textos extenso.
La segunda entrada m2 puede ser opcional o no ya que es un set imágenes faciales que se
usara como banco de datos, con la finalidad de unir tanto texto como el banco de datos en una
sola salida, si no se llega a agregar el set se crea una generación aleatoria de rostros según lo visto
por [referencia], estas dos entradas X1 y X2 se combinaran en un pool Global de entrenamiento,
el pool global es importante porque permite tener las 2 entradas en un solo modelo de datos.
Del pool global se procederá a realizar una combinación de caracterı́sticas resaltantes y
tener un aproximado de las caracterı́sticas principales de cada una las entradas, este proceso
lo realizara el combinador de caracterı́sticas, siendo el resultado y1, que pasara al prior que se
encarga de crear imágenes para su representación de la forma CLIP [referencia], para finalmente
este resultado y2 será la entrada del encodificador de imágenes, donde teniendo el resultado y1
se procede a realizar las variaciones de caracterı́sticas secundarias de la imagen y preservar las
caracterı́sticas principales ası́ esta salida y3 será la imagen final de salida.
2.4. Experimentación
..
2.4.1. Pruebas realizadas

Las pruebas realizadas fueron de gran importancia en encontrar posibles mejoras o realizar
cambios a la arquitectura presentada, esto llevo a cambiar la arquitectura de forma que se
obtuvo una buena efectividad en la generación de imágenes. Las pruebas realizadas fueron:
Efectividad de las imágenes generadas
En esta prueba evalúa un total de 10000 imágenes las cuales serán generadas por el modelo
propuesto, varios humanos evaluaran las imágenes y generaran una opinión según la imagen que
se les presente, si la imagen es aceptable o si no lo es. Estas evaluaciones pueden ser subjetivas
en la evaluación de calidad final de la imagen, pero son muy efectivas al momento de descartar
imágenes deformadas, que son las imágenes sobre las cuales se enfoca las correcciones.
Comparación con otros modelos
Existen modelos que tienen propuestas casi similares, pero no enfocadas especı́ficamente al
rostro, para lo cual se evalúa los resultados de estos modelos contra los resultados que se obtiene
del modelo propuesto. Los datos de entrada deben ser iguales o similares, para tratar de obtener
una misma salida. Por ejemplo, se describe en el texto un mismo escenario y el banco de datos
que se utiliza será el mismo.
La efectividad de la imagen sin ser un modelo de combinación de caracterı́sticas
Una de las pruebas que se realizó para tratar de mejorar la calidad de las imágenes de salida
fue la de reemplazar el modelo de combinación de caracterı́sticas por dos bloques separados de
caracterı́sticas y que el prior lo obtenga como dos entradas diferentes, estas pruebas no fueron
satisfactorios ya que se pierde la caracterı́stica de darle simetrı́a al banco de datos del rastro con
la cara que se obtiene del texto, esto puede deberse a que no existe un punto referencia del cual
se pueda guiar el banco de datos para alinear a la cara, ya esta parte se realiza en el modelo de
combinación.
2.4.2. Resultados obtenidos

..
2.4.3. Comparación contra Dall-E 2
Se suelen tener subsecciones dependiendo del contenido del trabajo, aquı́ se explica todo lo
realizado: obtención de datos, tratamiento de datos, metodologı́as de trabajo, propuestas de
algoritmos, modelos, pruebas, experimentos, resultados obtenidos, etc. Se suelen incluir figuras
y tablas que ayudan a explicar la solución a la problemática a resolver.
3. Conclusiones
Conclusiones a partir de los resultados obtenidos y de los objetivos y/o problemática a resolver.
Suele incluirse las perspectivas (trabajo a futuro) que se visualizan para dar continuidad al
trabajo.
Referencias
Incluir por integrante de equipo al menos dos artı́culos de referencia, más otras fuentes consul-
tadas (sobre todo libros y/o reportes técnicos).
Utilizar el siguiente formato:
A typical (numerical) reference list might begin

[1] Karras, T., Laine, S., Aittala, M., Hellsten, J., Lehtinen, J. Aila, T. (2020). Analyzing and Improving the
Image Quality of StyleGAN. https://arxiv.org/pdf/1912.04958.pdf.

[2] Ramesh, A., Pavlov, M., Goh, G., Gray, S., Voss, C., Radford, A., Chen, M. Sutskever, I. (2021, 26 febrero).
Zero-Shot Text-to-Image Generation. https://arxiv.org/pdf/2102.12092v2.pdf.
[3] Ramesh, A., Dhariwal, P., Nichol, A., Chu, C. Chen, M. (2022, abril). Hierarchical Text-Conditional Image
Generation with CLIP Latents. https://arxiv.org/pdf/2204.06125.pdf.
[4] Mansimov, E., Parisotto, E., Lei Ba, J. Salakhutdinov, R. (2016, febrero). GENERATING IMAGES FROM
CAPTIONS WITH ATTENTION. https://arxiv.org/pdf/1511.02793.pdf.
[5] Goodfellow, I. J., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A. Bengio,
Y. (2014, junio). Generative Adversarial Nets. https://arxiv.org/pdf/1406.2661.pdf.
[6] Cho, J., Lu, J., Schwenk, D., Hajishirzi, H. Kembhavi, A. (2020, septiembre). X-LXMERT: Paint, Caption
and Answer Questions with Multi-Modal Transformers. https://arxiv.org/pdf/2009.11278.pdf.
[7] Radford, A., Wook Kim, J., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin,
P., Clark, J., Krueger, G. Sutskever, I. (2020, septiembre). Learning Transferable Visual Models From
Natural Language Supervision. https://arxiv.org/pdf/2103.00020.pdf.

Preparing A Paper Using LaTeXefor Publication in Nombre Del Trabajo

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Preparing A Paper Using LaTeXefor Publication in Nombre Del Trabajo

Cargado por

Copyright:

Formatos disponibles

Generación de Texto a Imagen con base en Dall-E 2

y especial enfoque a rostros

1.1. Text to Image Generation

1.3. Generación de rostros mediante Style GAN 2

Figure 1. [a] Arquitectura base de StyleGAN. [b] Arquitectura

En [Ref] se analiza principalmente el desempeño de la red cuando es entrenada con el dataset

1.4.1. Repintado de imágenes de DeepFill

1.4.2. Deep Person Generation

2.1. Obtención del conjunto de datos

2.2. Metodologı́a de entrenamiento

Figure 2. En la arquitectura propuesta las cajas verdes claras

2.4.1. Pruebas realizadas

2.4.2. Resultados obtenidos

2.4.3. Comparación contra Dall-E 2

Utilizar el siguiente formato:

A typical (numerical) reference list might begin

Figure 5. En la arquitectura propuesta las cajas verdes claras

También podría gustarte