Métodos semánticos para la recuperación de información en grandes volúmenes de datos: una Aquitectura Escalable y Eficiente
Descripción del Articulo
La creciente disponibilidad de datos en diferente dominio de aplicación ha motivado el desarrollo de técnicas de recuperación y descubrimiento de conocimiento en grandes volúmenes de datos. Recientes trabajos muestran que tanto las técnicas de aprendizaje profundo como nuevos métodos de búsqueda apr...
Autor: | |
---|---|
Formato: | tesis doctoral |
Fecha de Publicación: | 2018 |
Institución: | Universidad Nacional de San Agustín |
Repositorio: | UNSA-Institucional |
Lenguaje: | español |
OAI Identifier: | oai:repositorio.unsa.edu.pe:UNSA/6518 |
Enlace del recurso: | http://repositorio.unsa.edu.pe/handle/UNSA/6518 |
Nivel de acceso: | acceso abierto |
Materia: | Recuperación de Información Búsqueda kNN Deep Learning Dimensión Fractal https://purl.org/pe-repo/ocde/ford#2.02.06 |
id |
UNSA_20ca5a807e89a9283ecb811c10749cf3 |
---|---|
oai_identifier_str |
oai:repositorio.unsa.edu.pe:UNSA/6518 |
network_acronym_str |
UNSA |
network_name_str |
UNSA-Institucional |
repository_id_str |
4847 |
spelling |
Ocsa Mamani, Alexander Victor2018-09-17T14:18:17Z2018-09-17T14:18:17Z2018La creciente disponibilidad de datos en diferente dominio de aplicación ha motivado el desarrollo de técnicas de recuperación y descubrimiento de conocimiento en grandes volúmenes de datos. Recientes trabajos muestran que tanto las técnicas de aprendizaje profundo como nuevos métodos de búsqueda aproximada en dominio de datos complejos son campos de investigación importantes, donde tanto la eficiencia como la escalabilidad de los algoritmos son factores críticos. Para resolver el problema de escalabilidad se han propuesto muchos enfoques. En problemas de gran escala con datos en altas dimensiones, una solución de búsqueda aproximada con un análisis teórico solido se muestra más adecuado que una solución exacta con un modelo teórico débil. Algoritmos de búsqueda aproximada basados en hashing son propuestos para consultar en conjuntos de datos alta dimensiones debido a su velocidad de recuperación y bajo costo de almacenamiento. Por otro lado, en problemas donde se tiene grandes volúmenes de datos etiquetados las técnicas de aprendizaje profundo, como las redes convolucionales, se muestran más adecuadas conforme el número de ejemplos por clases crece.Estudios recientes, promueven el uso de la Red Neuronal Convolutiva (CNN) con técnicas de hashing para mejorar la precisión de la búsqueda de los k-vecinos más cercanos- KNN. Sin embargo, aun hay retos que resolver para encontrar una solución práctica y eficiente para indexar características CNN, tales como la necesidad de un proceso de entrenamiento intenso para lograr resultados de consulta precisos y la dependencia crítica de los parámetros. Con el fin de superar estos problemas, se propone un nuevo método de búsqueda por similitud, Deep frActal based Hashing (DAsH), para calcular los mejores valores de parámetros para una proyección óptima en un subespacio, explorando las correlaciones entre los atributos de las características CNN usando la teoría fractal. Además, inspirado por recientes avances en redes CNN, utilizamos no solo activaciones de capas inferiores que son más generales, sino también el conocimiento previo de los datos semánticos sobre la última capa CNN para mejorar la precisión de la búsqueda. Así, nuestro método produce una mejor representación del espacio de datos con un coste computacional menor para una mejor precisión. Esta mejora significativa en velocidad y precisión nos permite evaluar este esquema en conjuntos de datos reales y sintéticos.Tesisapplication/pdfhttp://repositorio.unsa.edu.pe/handle/UNSA/6518spaUniversidad Nacional de San Agustín de Arequipainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/2.5/pe/Universidad Nacional de San Agustín de ArequipaRepositorio Institucional - UNSAreponame:UNSA-Institucionalinstname:Universidad Nacional de San Agustíninstacron:UNSARecuperación de InformaciónBúsqueda kNNDeep LearningDimensión Fractalhttps://purl.org/pe-repo/ocde/ford#2.02.06Métodos semánticos para la recuperación de información en grandes volúmenes de datos: una Aquitectura Escalable y Eficienteinfo:eu-repo/semantics/doctoralThesisSUNEDUDoctorado en Ciencias de la ComputaciónUniversidad Nacional de San Agustín de Arequipa.Unidad de Posgrado.Facultad de Ingeniería de Producción y ServiciosDoctoradoDoctor en Ciencias de la ComputaciónORIGINALISDocmaav.pdfapplication/pdf10808280https://repositorio.unsa.edu.pe/bitstreams/3612c936-b24f-43e8-abfd-11f8ee94f81d/download8647ca2773afd42c2a1a76ff41f61110MD51TEXTISDocmaav.pdf.txtISDocmaav.pdf.txtExtracted texttext/plain254206https://repositorio.unsa.edu.pe/bitstreams/268e968f-9e6f-4d8f-acbf-4b20c937050b/downloadf2f01f4727b41331d420f7cfb0813f27MD52UNSA/6518oai:repositorio.unsa.edu.pe:UNSA/65182022-05-29 11:32:52.932http://creativecommons.org/licenses/by-nc-nd/2.5/pe/info:eu-repo/semantics/openAccesshttps://repositorio.unsa.edu.peRepositorio Institucional UNSArepositorio@unsa.edu.pe |
dc.title.es_PE.fl_str_mv |
Métodos semánticos para la recuperación de información en grandes volúmenes de datos: una Aquitectura Escalable y Eficiente |
title |
Métodos semánticos para la recuperación de información en grandes volúmenes de datos: una Aquitectura Escalable y Eficiente |
spellingShingle |
Métodos semánticos para la recuperación de información en grandes volúmenes de datos: una Aquitectura Escalable y Eficiente Ocsa Mamani, Alexander Victor Recuperación de Información Búsqueda kNN Deep Learning Dimensión Fractal https://purl.org/pe-repo/ocde/ford#2.02.06 |
title_short |
Métodos semánticos para la recuperación de información en grandes volúmenes de datos: una Aquitectura Escalable y Eficiente |
title_full |
Métodos semánticos para la recuperación de información en grandes volúmenes de datos: una Aquitectura Escalable y Eficiente |
title_fullStr |
Métodos semánticos para la recuperación de información en grandes volúmenes de datos: una Aquitectura Escalable y Eficiente |
title_full_unstemmed |
Métodos semánticos para la recuperación de información en grandes volúmenes de datos: una Aquitectura Escalable y Eficiente |
title_sort |
Métodos semánticos para la recuperación de información en grandes volúmenes de datos: una Aquitectura Escalable y Eficiente |
author |
Ocsa Mamani, Alexander Victor |
author_facet |
Ocsa Mamani, Alexander Victor |
author_role |
author |
dc.contributor.author.fl_str_mv |
Ocsa Mamani, Alexander Victor |
dc.subject.es_PE.fl_str_mv |
Recuperación de Información Búsqueda kNN Deep Learning Dimensión Fractal |
topic |
Recuperación de Información Búsqueda kNN Deep Learning Dimensión Fractal https://purl.org/pe-repo/ocde/ford#2.02.06 |
dc.subject.ocde.es_PE.fl_str_mv |
https://purl.org/pe-repo/ocde/ford#2.02.06 |
description |
La creciente disponibilidad de datos en diferente dominio de aplicación ha motivado el desarrollo de técnicas de recuperación y descubrimiento de conocimiento en grandes volúmenes de datos. Recientes trabajos muestran que tanto las técnicas de aprendizaje profundo como nuevos métodos de búsqueda aproximada en dominio de datos complejos son campos de investigación importantes, donde tanto la eficiencia como la escalabilidad de los algoritmos son factores críticos. Para resolver el problema de escalabilidad se han propuesto muchos enfoques. En problemas de gran escala con datos en altas dimensiones, una solución de búsqueda aproximada con un análisis teórico solido se muestra más adecuado que una solución exacta con un modelo teórico débil. Algoritmos de búsqueda aproximada basados en hashing son propuestos para consultar en conjuntos de datos alta dimensiones debido a su velocidad de recuperación y bajo costo de almacenamiento. Por otro lado, en problemas donde se tiene grandes volúmenes de datos etiquetados las técnicas de aprendizaje profundo, como las redes convolucionales, se muestran más adecuadas conforme el número de ejemplos por clases crece.Estudios recientes, promueven el uso de la Red Neuronal Convolutiva (CNN) con técnicas de hashing para mejorar la precisión de la búsqueda de los k-vecinos más cercanos- KNN. Sin embargo, aun hay retos que resolver para encontrar una solución práctica y eficiente para indexar características CNN, tales como la necesidad de un proceso de entrenamiento intenso para lograr resultados de consulta precisos y la dependencia crítica de los parámetros. Con el fin de superar estos problemas, se propone un nuevo método de búsqueda por similitud, Deep frActal based Hashing (DAsH), para calcular los mejores valores de parámetros para una proyección óptima en un subespacio, explorando las correlaciones entre los atributos de las características CNN usando la teoría fractal. Además, inspirado por recientes avances en redes CNN, utilizamos no solo activaciones de capas inferiores que son más generales, sino también el conocimiento previo de los datos semánticos sobre la última capa CNN para mejorar la precisión de la búsqueda. Así, nuestro método produce una mejor representación del espacio de datos con un coste computacional menor para una mejor precisión. Esta mejora significativa en velocidad y precisión nos permite evaluar este esquema en conjuntos de datos reales y sintéticos. |
publishDate |
2018 |
dc.date.accessioned.none.fl_str_mv |
2018-09-17T14:18:17Z |
dc.date.available.none.fl_str_mv |
2018-09-17T14:18:17Z |
dc.date.issued.fl_str_mv |
2018 |
dc.type.es_PE.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
dc.identifier.uri.none.fl_str_mv |
http://repositorio.unsa.edu.pe/handle/UNSA/6518 |
url |
http://repositorio.unsa.edu.pe/handle/UNSA/6518 |
dc.language.iso.es_PE.fl_str_mv |
spa |
language |
spa |
dc.relation.ispartof.fl_str_mv |
SUNEDU |
dc.rights.es_PE.fl_str_mv |
info:eu-repo/semantics/openAccess |
dc.rights.uri.es_PE.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/2.5/pe/ |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/2.5/pe/ |
dc.format.es_PE.fl_str_mv |
application/pdf |
dc.publisher.es_PE.fl_str_mv |
Universidad Nacional de San Agustín de Arequipa |
dc.source.es_PE.fl_str_mv |
Universidad Nacional de San Agustín de Arequipa Repositorio Institucional - UNSA |
dc.source.none.fl_str_mv |
reponame:UNSA-Institucional instname:Universidad Nacional de San Agustín instacron:UNSA |
instname_str |
Universidad Nacional de San Agustín |
instacron_str |
UNSA |
institution |
UNSA |
reponame_str |
UNSA-Institucional |
collection |
UNSA-Institucional |
bitstream.url.fl_str_mv |
https://repositorio.unsa.edu.pe/bitstreams/3612c936-b24f-43e8-abfd-11f8ee94f81d/download https://repositorio.unsa.edu.pe/bitstreams/268e968f-9e6f-4d8f-acbf-4b20c937050b/download |
bitstream.checksum.fl_str_mv |
8647ca2773afd42c2a1a76ff41f61110 f2f01f4727b41331d420f7cfb0813f27 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Institucional UNSA |
repository.mail.fl_str_mv |
repositorio@unsa.edu.pe |
_version_ |
1828762887354580992 |
score |
13.7211075 |
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).