Text-to-Image Generation Using Artificial Intelligence: A Systematic Review
Descripción del Articulo
Este estudio examina diferentes enfoques utilizados en la generación de texto a imagen mediante inteligencia artificial, con especial énfasis en la relación semántica establecida entre las descripciones textuales y las imágenes generadas por los modelos texto-imagen. Además, se revisa la fiabilidad...
| Autores: | , , |
|---|---|
| Formato: | artículo |
| Fecha de Publicación: | 2026 |
| Institución: | Universidad La Salle |
| Repositorio: | Revistas - Universidad La Salle |
| Lenguaje: | español |
| OAI Identifier: | oai:ojs.revistas.ulasalle.edu.pe:article/356 |
| Enlace del recurso: | https://revistas.ulasalle.edu.pe/innosoft/article/view/356 https://doi.org/10.48168/innosoft.s29.a356 https://n2t.net/ark:/42411/s29/a356 |
| Nivel de acceso: | acceso abierto |
| Materia: | Text-to-Image Generation Generative Artificial Intelligence Multimodal Models Diffusion Models Semantic Alignment Generación de imágenes a partir de texto Inteligencia artificial generativa Modelos multimodales Modelos de difusión Alineamiento semántico |
| Sumario: | Este estudio examina diferentes enfoques utilizados en la generación de texto a imagen mediante inteligencia artificial, con especial énfasis en la relación semántica establecida entre las descripciones textuales y las imágenes generadas por los modelos texto-imagen. Además, se revisa la fiabilidad de las métricas utilizadas para evaluar su rendimiento, con el objetivo de identificar sus capacidades y limitaciones actuales. La investigación se realizó siguiendo la metodología PRISMA, mediante la cual se seleccionaron 18 artículos según criterios predefinidos. Estos estudios abordaron temas relacionados con arquitecturas de difusión, mecanismos de control semántico, atención a nivel de frase e ingeniería de indicaciones. Los resultados indican que los modelos basados en difusión son los más utilizados, mientras que los modelos GAN y VAE se aplican principalmente en aplicaciones de nicho. Con base en el análisis, se identificaron tres niveles de control: atributos visuales, composición y estilo. Sin embargo, actualmente se observan diversas limitaciones en las métricas utilizadas para evaluar la alineación semántica, así como la persistencia de ciertos sesgos asociados con los modelos preentrenados. Las conclusiones indican que los modelos de difusión dominan la literatura reciente y que el uso de técnicas como LoRA contribuye a mejorar la coherencia texto-imagen. Estos hallazgos sugieren que aún se requiere más investigación sobre la atención relacional, particularmente con respecto al desarrollo de métricas estandarizadas en estudios futuros. |
|---|
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).