Métodos semánticos para la recuperación de información en grandes volúmenes de datos: una Aquitectura Escalable y Eficiente

Descripción del Articulo

La creciente disponibilidad de datos en diferente dominio de aplicación ha motivado el desarrollo de técnicas de recuperación y descubrimiento de conocimiento en grandes volúmenes de datos. Recientes trabajos muestran que tanto las técnicas de aprendizaje profundo como nuevos métodos de búsqueda apr...

Descripción completa

Detalles Bibliográficos
Autor: Ocsa Mamani, Alexander Victor
Formato: tesis doctoral
Fecha de Publicación:2018
Institución:Universidad Nacional de San Agustín
Repositorio:UNSA-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.unsa.edu.pe:UNSA/6518
Enlace del recurso:http://repositorio.unsa.edu.pe/handle/UNSA/6518
Nivel de acceso:acceso abierto
Materia:Recuperación de Información
Búsqueda kNN
Deep Learning
Dimensión Fractal
https://purl.org/pe-repo/ocde/ford#2.02.06
id UNSA_20ca5a807e89a9283ecb811c10749cf3
oai_identifier_str oai:repositorio.unsa.edu.pe:UNSA/6518
network_acronym_str UNSA
network_name_str UNSA-Institucional
repository_id_str 4847
spelling Ocsa Mamani, Alexander Victor2018-09-17T14:18:17Z2018-09-17T14:18:17Z2018La creciente disponibilidad de datos en diferente dominio de aplicación ha motivado el desarrollo de técnicas de recuperación y descubrimiento de conocimiento en grandes volúmenes de datos. Recientes trabajos muestran que tanto las técnicas de aprendizaje profundo como nuevos métodos de búsqueda aproximada en dominio de datos complejos son campos de investigación importantes, donde tanto la eficiencia como la escalabilidad de los algoritmos son factores críticos. Para resolver el problema de escalabilidad se han propuesto muchos enfoques. En problemas de gran escala con datos en altas dimensiones, una solución de búsqueda aproximada con un análisis teórico solido se muestra más adecuado que una solución exacta con un modelo teórico débil. Algoritmos de búsqueda aproximada basados en hashing son propuestos para consultar en conjuntos de datos alta dimensiones debido a su velocidad de recuperación y bajo costo de almacenamiento. Por otro lado, en problemas donde se tiene grandes volúmenes de datos etiquetados las técnicas de aprendizaje profundo, como las redes convolucionales, se muestran más adecuadas conforme el número de ejemplos por clases crece.Estudios recientes, promueven el uso de la Red Neuronal Convolutiva (CNN) con técnicas de hashing para mejorar la precisión de la búsqueda de los k-vecinos más cercanos- KNN. Sin embargo, aun hay retos que resolver para encontrar una solución práctica y eficiente para indexar características CNN, tales como la necesidad de un proceso de entrenamiento intenso para lograr resultados de consulta precisos y la dependencia crítica de los parámetros. Con el fin de superar estos problemas, se propone un nuevo método de búsqueda por similitud, Deep frActal based Hashing (DAsH), para calcular los mejores valores de parámetros para una proyección óptima en un subespacio, explorando las correlaciones entre los atributos de las características CNN usando la teoría fractal. Además, inspirado por recientes avances en redes CNN, utilizamos no solo activaciones de capas inferiores que son más generales, sino también el conocimiento previo de los datos semánticos sobre la última capa CNN para mejorar la precisión de la búsqueda. Así, nuestro método produce una mejor representación del espacio de datos con un coste computacional menor para una mejor precisión. Esta mejora significativa en velocidad y precisión nos permite evaluar este esquema en conjuntos de datos reales y sintéticos.Tesisapplication/pdfhttp://repositorio.unsa.edu.pe/handle/UNSA/6518spaUniversidad Nacional de San Agustín de Arequipainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/2.5/pe/Universidad Nacional de San Agustín de ArequipaRepositorio Institucional - UNSAreponame:UNSA-Institucionalinstname:Universidad Nacional de San Agustíninstacron:UNSARecuperación de InformaciónBúsqueda kNNDeep LearningDimensión Fractalhttps://purl.org/pe-repo/ocde/ford#2.02.06Métodos semánticos para la recuperación de información en grandes volúmenes de datos: una Aquitectura Escalable y Eficienteinfo:eu-repo/semantics/doctoralThesisSUNEDUDoctorado en Ciencias de la ComputaciónUniversidad Nacional de San Agustín de Arequipa.Unidad de Posgrado.Facultad de Ingeniería de Producción y ServiciosDoctoradoDoctor en Ciencias de la ComputaciónORIGINALISDocmaav.pdfapplication/pdf10808280https://repositorio.unsa.edu.pe/bitstreams/3612c936-b24f-43e8-abfd-11f8ee94f81d/download8647ca2773afd42c2a1a76ff41f61110MD51TEXTISDocmaav.pdf.txtISDocmaav.pdf.txtExtracted texttext/plain254206https://repositorio.unsa.edu.pe/bitstreams/268e968f-9e6f-4d8f-acbf-4b20c937050b/downloadf2f01f4727b41331d420f7cfb0813f27MD52UNSA/6518oai:repositorio.unsa.edu.pe:UNSA/65182022-05-29 11:32:52.932http://creativecommons.org/licenses/by-nc-nd/2.5/pe/info:eu-repo/semantics/openAccesshttps://repositorio.unsa.edu.peRepositorio Institucional UNSArepositorio@unsa.edu.pe
dc.title.es_PE.fl_str_mv Métodos semánticos para la recuperación de información en grandes volúmenes de datos: una Aquitectura Escalable y Eficiente
title Métodos semánticos para la recuperación de información en grandes volúmenes de datos: una Aquitectura Escalable y Eficiente
spellingShingle Métodos semánticos para la recuperación de información en grandes volúmenes de datos: una Aquitectura Escalable y Eficiente
Ocsa Mamani, Alexander Victor
Recuperación de Información
Búsqueda kNN
Deep Learning
Dimensión Fractal
https://purl.org/pe-repo/ocde/ford#2.02.06
title_short Métodos semánticos para la recuperación de información en grandes volúmenes de datos: una Aquitectura Escalable y Eficiente
title_full Métodos semánticos para la recuperación de información en grandes volúmenes de datos: una Aquitectura Escalable y Eficiente
title_fullStr Métodos semánticos para la recuperación de información en grandes volúmenes de datos: una Aquitectura Escalable y Eficiente
title_full_unstemmed Métodos semánticos para la recuperación de información en grandes volúmenes de datos: una Aquitectura Escalable y Eficiente
title_sort Métodos semánticos para la recuperación de información en grandes volúmenes de datos: una Aquitectura Escalable y Eficiente
author Ocsa Mamani, Alexander Victor
author_facet Ocsa Mamani, Alexander Victor
author_role author
dc.contributor.author.fl_str_mv Ocsa Mamani, Alexander Victor
dc.subject.es_PE.fl_str_mv Recuperación de Información
Búsqueda kNN
Deep Learning
Dimensión Fractal
topic Recuperación de Información
Búsqueda kNN
Deep Learning
Dimensión Fractal
https://purl.org/pe-repo/ocde/ford#2.02.06
dc.subject.ocde.es_PE.fl_str_mv https://purl.org/pe-repo/ocde/ford#2.02.06
description La creciente disponibilidad de datos en diferente dominio de aplicación ha motivado el desarrollo de técnicas de recuperación y descubrimiento de conocimiento en grandes volúmenes de datos. Recientes trabajos muestran que tanto las técnicas de aprendizaje profundo como nuevos métodos de búsqueda aproximada en dominio de datos complejos son campos de investigación importantes, donde tanto la eficiencia como la escalabilidad de los algoritmos son factores críticos. Para resolver el problema de escalabilidad se han propuesto muchos enfoques. En problemas de gran escala con datos en altas dimensiones, una solución de búsqueda aproximada con un análisis teórico solido se muestra más adecuado que una solución exacta con un modelo teórico débil. Algoritmos de búsqueda aproximada basados en hashing son propuestos para consultar en conjuntos de datos alta dimensiones debido a su velocidad de recuperación y bajo costo de almacenamiento. Por otro lado, en problemas donde se tiene grandes volúmenes de datos etiquetados las técnicas de aprendizaje profundo, como las redes convolucionales, se muestran más adecuadas conforme el número de ejemplos por clases crece.Estudios recientes, promueven el uso de la Red Neuronal Convolutiva (CNN) con técnicas de hashing para mejorar la precisión de la búsqueda de los k-vecinos más cercanos- KNN. Sin embargo, aun hay retos que resolver para encontrar una solución práctica y eficiente para indexar características CNN, tales como la necesidad de un proceso de entrenamiento intenso para lograr resultados de consulta precisos y la dependencia crítica de los parámetros. Con el fin de superar estos problemas, se propone un nuevo método de búsqueda por similitud, Deep frActal based Hashing (DAsH), para calcular los mejores valores de parámetros para una proyección óptima en un subespacio, explorando las correlaciones entre los atributos de las características CNN usando la teoría fractal. Además, inspirado por recientes avances en redes CNN, utilizamos no solo activaciones de capas inferiores que son más generales, sino también el conocimiento previo de los datos semánticos sobre la última capa CNN para mejorar la precisión de la búsqueda. Así, nuestro método produce una mejor representación del espacio de datos con un coste computacional menor para una mejor precisión. Esta mejora significativa en velocidad y precisión nos permite evaluar este esquema en conjuntos de datos reales y sintéticos.
publishDate 2018
dc.date.accessioned.none.fl_str_mv 2018-09-17T14:18:17Z
dc.date.available.none.fl_str_mv 2018-09-17T14:18:17Z
dc.date.issued.fl_str_mv 2018
dc.type.es_PE.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
dc.identifier.uri.none.fl_str_mv http://repositorio.unsa.edu.pe/handle/UNSA/6518
url http://repositorio.unsa.edu.pe/handle/UNSA/6518
dc.language.iso.es_PE.fl_str_mv spa
language spa
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.es_PE.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.es_PE.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/pe/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/pe/
dc.format.es_PE.fl_str_mv application/pdf
dc.publisher.es_PE.fl_str_mv Universidad Nacional de San Agustín de Arequipa
dc.source.es_PE.fl_str_mv Universidad Nacional de San Agustín de Arequipa
Repositorio Institucional - UNSA
dc.source.none.fl_str_mv reponame:UNSA-Institucional
instname:Universidad Nacional de San Agustín
instacron:UNSA
instname_str Universidad Nacional de San Agustín
instacron_str UNSA
institution UNSA
reponame_str UNSA-Institucional
collection UNSA-Institucional
bitstream.url.fl_str_mv https://repositorio.unsa.edu.pe/bitstreams/3612c936-b24f-43e8-abfd-11f8ee94f81d/download
https://repositorio.unsa.edu.pe/bitstreams/268e968f-9e6f-4d8f-acbf-4b20c937050b/download
bitstream.checksum.fl_str_mv 8647ca2773afd42c2a1a76ff41f61110
f2f01f4727b41331d420f7cfb0813f27
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositorio Institucional UNSA
repository.mail.fl_str_mv repositorio@unsa.edu.pe
_version_ 1828762887354580992
score 13.7211075
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).