Una propuesta de interpolación cíclica cruzada para el problema de la traducción image-a-image con datos no emparejados

Descripción del Articulo

La transferencia de estilos de imagen a imagen no emparejadas es un problema desafiante que consiste en la extracción y correspondencia de mapas de características entre un conjunto de datos origen A y un conjunto de datos destino B. Ambos mapas de características se combinan e interpolan mediante u...

Descripción completa

Detalles Bibliográficos
Autor: Lopez Caceres, Jorge Roberto
Formato: tesis de maestría
Fecha de Publicación:2021
Institución:Universidad Católica San Pablo
Repositorio:UCSP-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.ucsp.edu.pe:20.500.12590/17584
Enlace del recurso:https://hdl.handle.net/20.500.12590/17584
Nivel de acceso:acceso abierto
Materia:Aprendizaje de máquina
Aprendizaje profundo
Modelos generativos
Modelos cíclicos
Transferencias de estilos
https://purl.org/pe-repo/ocde/ford#1.02.01
Descripción
Sumario:La transferencia de estilos de imagen a imagen no emparejadas es un problema desafiante que consiste en la extracción y correspondencia de mapas de características entre un conjunto de datos origen A y un conjunto de datos destino B. Ambos mapas de características se combinan e interpolan mediante una función de correspondencia bidireccional: GB de A → B y GA de B → A. Los métodos actuales apuntan a los modelos basados en redes adversas generativas (GAN) porque sintetizan nuevas muestras bastante realistas en diferentes dominios al aprender las características más importantes de cualquier conjunto de datos. No obstante, el entrenamiento de la función de correspondencia es no-supervisada (datos no emparejados); por lo tanto, la mayoría de los modelos basados en la arquitecturas GAN y CycleGAN no logran aprender las características más importantes de ningún dominio. En consecuencia, la función de transferencia funciona bien solo en una dirección (A → B), y falla en la otra (B → A). En este documento, proponemos un modelo basado en las arquitecturas CycleGAN para resolver el problema de la transferencia de estilos de imagen-a-imagen no emparejadas. Para mejorar la representación del mapa de características (Z) utilizamos un ´único codificador para ambos dominios de datos. De esta forma se logra que las características más importantes de ambos dominios sean más cercanas, y que la función de correspondencia sea más fácil de entrenar. Además consideramos a Z como un dominio intermedio que guía el proceso de aprendizaje y reduce el error inducido de los ciclos. Por otro lado, desarrollamos bloques de entrenamiento por cada ciclo, donde cada bloque consiste en una iteración del generador y 5 iteraciones del discriminador, con el fin de acelerar la convergencia. Para los experimentos se consideraron varios conjuntos de datos, incluidos los conjuntos de datos Cityscapes, Horse2zebra y Monet2photo. Los resultados mostraron una mejora cualitativa (visual), y cuantitativa (calculo por segmentación semántica) respecto a los resultados del CycleGAN.
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).