Text-to-Image Generation Using Artificial Intelligence: A Systematic Review

Descripción del Articulo

Este estudio examina diferentes enfoques utilizados en la generación de texto a imagen mediante inteligencia artificial, con especial énfasis en la relación semántica establecida entre las descripciones textuales y las imágenes generadas por los modelos texto-imagen. Además, se revisa la fiabilidad...

Descripción completa

Detalles Bibliográficos
Autores: Rivas Calderón, Zaleth, Villanueva Rosales, Estefany, Torres Villanueva, Marcelino
Formato: artículo
Fecha de Publicación:2026
Institución:Universidad La Salle
Repositorio:Revistas - Universidad La Salle
Lenguaje:español
OAI Identifier:oai:ojs.revistas.ulasalle.edu.pe:article/356
Enlace del recurso:https://revistas.ulasalle.edu.pe/innosoft/article/view/356
https://doi.org/10.48168/innosoft.s29.a356
https://n2t.net/ark:/42411/s29/a356
Nivel de acceso:acceso abierto
Materia:Text-to-Image Generation
Generative Artificial Intelligence
Multimodal Models
Diffusion Models
Semantic Alignment
Generación de imágenes a partir de texto
Inteligencia artificial generativa
Modelos multimodales
Modelos de difusión
Alineamiento semántico
Descripción
Sumario:Este estudio examina diferentes enfoques utilizados en la generación de texto a imagen mediante inteligencia artificial, con especial énfasis en la relación semántica establecida entre las descripciones textuales y las imágenes generadas por los modelos texto-imagen. Además, se revisa la fiabilidad de las métricas utilizadas para evaluar su rendimiento, con el objetivo de identificar sus capacidades y limitaciones actuales. La investigación se realizó siguiendo la metodología PRISMA, mediante la cual se seleccionaron 18 artículos según criterios predefinidos. Estos estudios abordaron temas relacionados con arquitecturas de difusión, mecanismos de control semántico, atención a nivel de frase e ingeniería de indicaciones. Los resultados indican que los modelos basados ​​en difusión son los más utilizados, mientras que los modelos GAN y VAE se aplican principalmente en aplicaciones de nicho. Con base en el análisis, se identificaron tres niveles de control: atributos visuales, composición y estilo. Sin embargo, actualmente se observan diversas limitaciones en las métricas utilizadas para evaluar la alineación semántica, así como la persistencia de ciertos sesgos asociados con los modelos preentrenados. Las conclusiones indican que los modelos de difusión dominan la literatura reciente y que el uso de técnicas como LoRA contribuye a mejorar la coherencia texto-imagen. Estos hallazgos sugieren que aún se requiere más investigación sobre la atención relacional, particularmente con respecto al desarrollo de métricas estandarizadas en estudios futuros.
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).