Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Abstract. All articles must contain an abstract. This document describes the preparation
of a conference paper to be published in Journal of Physics: Conference Series using LATEX 2ε
and the jpconf.cls class file. The abstract text should be formatted using 10 point font and
indented 25 mm from the left margin. Leave 10 mm space after the abstract before you begin
the main text of your article. The text of your article should start on the same page as the
abstract. The abstract follows the addresses and should give readers concise information about
the content of the article and indicate the main results obtained and conclusions drawn. As the
abstract is not part of the text it should be complete in itself; no table numbers, figure numbers,
references or displayed mathematical expressions should be included. It should be suitable for
direct inclusion in abstracting services and should not normally exceed 200 words. The abstract
should generally be restricted to a single paragraph. Since contemporary information-retrieval
systems rely heavily on the content of titles and abstracts to identify relevant articles in literature
searches, great care should be taken in constructing both.
1. Introducción
Uno de los avances mas destacados dentro del área de la Inteligencia Artificial que ha habido
en los últimos años llegó con el desarrollo de las Generative Adversarial Networks, y estas han
adquirido aun mas revuelo por los resultados que se han obtenido de estas. Uno de los ejemplos
mas populares es Dall-E 2, la cual es una red neuronal capaz de generar imágenes a partir de una
oración. Esta red esta entrenada con una extensa diversidad de temas que van desde personajes
históricos hasta pelı́culas populares de los últimos años; e incluso cuenta con la capacidad de
producir imágenes usando diferentes estilos, como lo es arte digital o dibujo a lápiz.
En el presente trabajo se proponen algunas mejoras a la arquitectura de Dall-E 2 para atacar
el problema con el que cuenta a la hora de generar rostros, pues en las imágenes mas complejas los
rostros siempre destacan por no ser los mejores. A continuación se muestran algunos conceptos
importantes para entender mejor los resultados aquı́ expuestos.
1.2. Dall-E 2
La mejora más grande vino de la mano de la implementación de la creación de DALL-E 2,
la cual agrega un modelo CLIP Latents [CLIP], esta red neuronal es capaz de asociar texto a
imagen que al modificar algún vector del texto de entrada puede crear variantes en la imagen.
Este planteamiento también maneja los conceptos de decodificador y codificador, que permiten
la utilización del modelo a una gran variedad de imágenes.
2. Desarrollo
Para dar una solución al problema que tiene Dall-E 2 a la hora de generar imágenes que incluyan
rostros se proponen distintas acciones para mejorar el desempeño de esta aplicación. Estas
van desde expandir el conjunto de datos de entrenamiento a cambiar la arquitectura de la red
neuronal y agregar algunos regularizadores que mejoran la calidad de la imagen de salida.
El modelo general empezara con obtener 1 o dos entradas, teniendo una entrada del texto a
representar gráficamente que representamos como m1, se le pasa a un modelo en-codificador de
texto que basado en las diferentes palabras del texto de entrada m1 generara un set de imágenes,
cabe mencionar que el modelo ya ha sido entrenado previamente con un conjunto de imágenes
y textos extenso.
La segunda entrada m2 puede ser opcional o no ya que es un set imágenes faciales que se
usara como banco de datos, con la finalidad de unir tanto texto como el banco de datos en una
sola salida, si no se llega a agregar el set se crea una generación aleatoria de rostros según lo visto
por [referencia], estas dos entradas X1 y X2 se combinaran en un pool Global de entrenamiento,
el pool global es importante porque permite tener las 2 entradas en un solo modelo de datos.
Del pool global se procederá a realizar una combinación de caracterı́sticas resaltantes y
tener un aproximado de las caracterı́sticas principales de cada una las entradas, este proceso
lo realizara el combinador de caracterı́sticas, siendo el resultado y1, que pasara al prior que se
encarga de crear imágenes para su representación de la forma CLIP [referencia], para finalmente
este resultado y2 será la entrada del encodificador de imágenes, donde teniendo el resultado y1
se procede a realizar las variaciones de caracterı́sticas secundarias de la imagen y preservar las
caracterı́sticas principales ası́ esta salida y3 será la imagen final de salida.
2.4. Experimentación
..
Se suelen tener subsecciones dependiendo del contenido del trabajo, aquı́ se explica todo lo
realizado: obtención de datos, tratamiento de datos, metodologı́as de trabajo, propuestas de
algoritmos, modelos, pruebas, experimentos, resultados obtenidos, etc. Se suelen incluir figuras
y tablas que ayudan a explicar la solución a la problemática a resolver.
3. Conclusiones
Conclusiones a partir de los resultados obtenidos y de los objetivos y/o problemática a resolver.
Suele incluirse las perspectivas (trabajo a futuro) que se visualizan para dar continuidad al
trabajo.
Figure 3. En la arquitectura propuesta las cajas verdes claras
representan los datos de entrada, las cajas englobadas en la caja gris
sera el proceso de fusión de caracterı́sticas, las caja naranja es el prior
y la caja verde final viene a ser el decodificador y salida final.
Referencias
Incluir por integrante de equipo al menos dos artı́culos de referencia, más otras fuentes consul-
tadas (sobre todo libros y/o reportes técnicos).
[2] Ramesh, A., Pavlov, M., Goh, G., Gray, S., Voss, C., Radford, A., Chen, M. Sutskever, I. (2021, 26 febrero).
Zero-Shot Text-to-Image Generation. https://arxiv.org/pdf/2102.12092v2.pdf.
[3] Ramesh, A., Dhariwal, P., Nichol, A., Chu, C. Chen, M. (2022, abril). Hierarchical Text-Conditional Image
Generation with CLIP Latents. https://arxiv.org/pdf/2204.06125.pdf.
[4] Mansimov, E., Parisotto, E., Lei Ba, J. Salakhutdinov, R. (2016, febrero). GENERATING IMAGES FROM
CAPTIONS WITH ATTENTION. https://arxiv.org/pdf/1511.02793.pdf.
[5] Goodfellow, I. J., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A. Bengio,
Y. (2014, junio). Generative Adversarial Nets. https://arxiv.org/pdf/1406.2661.pdf.
[6] Cho, J., Lu, J., Schwenk, D., Hajishirzi, H. Kembhavi, A. (2020, septiembre). X-LXMERT: Paint, Caption
and Answer Questions with Multi-Modal Transformers. https://arxiv.org/pdf/2009.11278.pdf.
[7] Radford, A., Wook Kim, J., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin,
P., Clark, J., Krueger, G. Sutskever, I. (2020, septiembre). Learning Transferable Visual Models From
Natural Language Supervision. https://arxiv.org/pdf/2103.00020.pdf.