Soluciones aproximadas para algoritmos escalables de minoración de datos en dominios complejos

Descripción del Articulo

La creciente disponibilidad de datos en diferentes ámbitos ha motivado el desarrollo de técnicas para el descubrimiento de conocimientos en grandes volúmenes de datos complejos. Un trabajo reciente muestra que la búsqueda del vecino más cercano en dominios de datos complejos es un importante campo d...

Descripción completa

Detalles Bibliográficos
Autor: Ocsa Mamani, Alexander Víctor
Formato: tesis de grado
Fecha de Publicación:2015
Institución:Universidad Nacional de San Agustín
Repositorio:UNSA-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.unsa.edu.pe:UNSA/3230
Enlace del recurso:http://repositorio.unsa.edu.pe/handle/UNSA/3230
Nivel de acceso:acceso abierto
Materia:Dimensionalidad
Métodos
Arquitecturas
Programación
CUDA
Hashing
Motifs
https://purl.org/pe-repo/ocde/ford#2.02.04
id UNSA_9110ec563d1ac5d2266c6c3498fc9d53
oai_identifier_str oai:repositorio.unsa.edu.pe:UNSA/3230
network_acronym_str UNSA
network_name_str UNSA-Institucional
repository_id_str 4847
spelling Ocsa Mamani, Alexander Víctor2017-10-21T16:50:31Z2017-10-21T16:50:31Z2015La creciente disponibilidad de datos en diferentes ámbitos ha motivado el desarrollo de técnicas para el descubrimiento de conocimientos en grandes volúmenes de datos complejos. Un trabajo reciente muestra que la búsqueda del vecino más cercano en dominios de datos complejos es un importante campo de investigación en muchas tareas de minería de datos. Para resolver el problema de la búsqueda de los vecinos más cercanos se han propuesto muchos enfoques para reducir los efectos de la maldición de la alta dimensionalidad de los datos. Aunque se han propuesto muchos métodos exactos y aproximados, el modelo de programación impone restricciones sobre el rendimiento en la CPU para estos tipos de soluciones. Una forma de mejorar el tiempo de ejecución de las técnicas de recuperación y extracción de datos en varias órdenes de magnitud es el empleo de las nuevas arquitecturas de programación paralela, como CUDA. En ese contexto, este trabajo presenta una propuesta para búsquedas kNN basado en una técnica Hashing e implementaciones paralelas en CUDA. La técnica propuesta está basado en el esquema de indexación LSH, o sea, usa proyecciones en subespacios. LSH es una solución aproximada y tiene la ventaja de permitir consultas de costo sublinear para datos en altas dimensiones. Usando implementaciones masivamente paralelas se mejoro tareas de minería de datos. Específicamente, fueron desarrollados soluciones de alto desempeño para la identificación de Motifs basado en implementaciones paralelas de consultas kNN. Las implementaciones masivamente paralelas en CUDA permitieron ejecutar estudios experimentales sobre grandes conjuntos de datos reales y sintéticos. La validación de desempeño usando una GeForce GTX470 resulto en un aumento de desempeño de hasta 7 veces, en media sobre el estado del arte en búsquedas por similitud e identificación de Motifs.Tesisapplication/pdfhttp://repositorio.unsa.edu.pe/handle/UNSA/3230spaUniversidad Nacional de San Agustín de ArequipaPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/2.5/pe/Universidad Nacional de San Agustín de ArequipaRepositorio Institucional - UNSAreponame:UNSA-Institucionalinstname:Universidad Nacional de San Agustíninstacron:UNSADimensionalidadMétodosArquitecturasProgramaciónCUDAHashingMotifshttps://purl.org/pe-repo/ocde/ford#2.02.04Soluciones aproximadas para algoritmos escalables de minoración de datos en dominios complejosinfo:eu-repo/semantics/bachelorThesisSUNEDU612076http://purl.org/pe-repo/renati/level#tituloProfesionalhttp://purl.org/pe-repo/renati/type#tesisIngeniería de SistemasUniversidad Nacional de San Agustín de Arequipa.Facultad de Ingeniería de Producción y ServiciosTítulo ProfesionalIngeniero de SistemasORIGINALISocmaav01.pdfapplication/pdf7982804https://repositorio.unsa.edu.pe/bitstreams/aee2bfae-51e9-42b2-9e32-64db5aecd07d/download0c79f542ac9140f7ee88aef9871dc3c2MD51TEXTISocmaav01.pdf.txtISocmaav01.pdf.txtExtracted texttext/plain254589https://repositorio.unsa.edu.pe/bitstreams/fab03f8d-e081-4d45-8b67-75df39d310d3/download902b55489ad65e96ac518d624110d63aMD52UNSA/3230oai:repositorio.unsa.edu.pe:UNSA/32302022-12-13 00:37:09.453http://creativecommons.org/licenses/by-nc-nd/2.5/pe/info:eu-repo/semantics/openAccesshttps://repositorio.unsa.edu.peRepositorio Institucional UNSArepositorio@unsa.edu.pe
dc.title.es_PE.fl_str_mv Soluciones aproximadas para algoritmos escalables de minoración de datos en dominios complejos
title Soluciones aproximadas para algoritmos escalables de minoración de datos en dominios complejos
spellingShingle Soluciones aproximadas para algoritmos escalables de minoración de datos en dominios complejos
Ocsa Mamani, Alexander Víctor
Dimensionalidad
Métodos
Arquitecturas
Programación
CUDA
Hashing
Motifs
https://purl.org/pe-repo/ocde/ford#2.02.04
title_short Soluciones aproximadas para algoritmos escalables de minoración de datos en dominios complejos
title_full Soluciones aproximadas para algoritmos escalables de minoración de datos en dominios complejos
title_fullStr Soluciones aproximadas para algoritmos escalables de minoración de datos en dominios complejos
title_full_unstemmed Soluciones aproximadas para algoritmos escalables de minoración de datos en dominios complejos
title_sort Soluciones aproximadas para algoritmos escalables de minoración de datos en dominios complejos
author Ocsa Mamani, Alexander Víctor
author_facet Ocsa Mamani, Alexander Víctor
author_role author
dc.contributor.author.fl_str_mv Ocsa Mamani, Alexander Víctor
dc.subject.es_PE.fl_str_mv Dimensionalidad
Métodos
Arquitecturas
Programación
CUDA
Hashing
Motifs
topic Dimensionalidad
Métodos
Arquitecturas
Programación
CUDA
Hashing
Motifs
https://purl.org/pe-repo/ocde/ford#2.02.04
dc.subject.ocde.es_PE.fl_str_mv https://purl.org/pe-repo/ocde/ford#2.02.04
description La creciente disponibilidad de datos en diferentes ámbitos ha motivado el desarrollo de técnicas para el descubrimiento de conocimientos en grandes volúmenes de datos complejos. Un trabajo reciente muestra que la búsqueda del vecino más cercano en dominios de datos complejos es un importante campo de investigación en muchas tareas de minería de datos. Para resolver el problema de la búsqueda de los vecinos más cercanos se han propuesto muchos enfoques para reducir los efectos de la maldición de la alta dimensionalidad de los datos. Aunque se han propuesto muchos métodos exactos y aproximados, el modelo de programación impone restricciones sobre el rendimiento en la CPU para estos tipos de soluciones. Una forma de mejorar el tiempo de ejecución de las técnicas de recuperación y extracción de datos en varias órdenes de magnitud es el empleo de las nuevas arquitecturas de programación paralela, como CUDA. En ese contexto, este trabajo presenta una propuesta para búsquedas kNN basado en una técnica Hashing e implementaciones paralelas en CUDA. La técnica propuesta está basado en el esquema de indexación LSH, o sea, usa proyecciones en subespacios. LSH es una solución aproximada y tiene la ventaja de permitir consultas de costo sublinear para datos en altas dimensiones. Usando implementaciones masivamente paralelas se mejoro tareas de minería de datos. Específicamente, fueron desarrollados soluciones de alto desempeño para la identificación de Motifs basado en implementaciones paralelas de consultas kNN. Las implementaciones masivamente paralelas en CUDA permitieron ejecutar estudios experimentales sobre grandes conjuntos de datos reales y sintéticos. La validación de desempeño usando una GeForce GTX470 resulto en un aumento de desempeño de hasta 7 veces, en media sobre el estado del arte en búsquedas por similitud e identificación de Motifs.
publishDate 2015
dc.date.accessioned.none.fl_str_mv 2017-10-21T16:50:31Z
dc.date.available.none.fl_str_mv 2017-10-21T16:50:31Z
dc.date.issued.fl_str_mv 2015
dc.type.es_PE.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
dc.identifier.uri.none.fl_str_mv http://repositorio.unsa.edu.pe/handle/UNSA/3230
url http://repositorio.unsa.edu.pe/handle/UNSA/3230
dc.language.iso.es_PE.fl_str_mv spa
language spa
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.es_PE.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.es_PE.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/pe/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/pe/
dc.format.es_PE.fl_str_mv application/pdf
dc.publisher.es_PE.fl_str_mv Universidad Nacional de San Agustín de Arequipa
dc.publisher.country.es_PE.fl_str_mv PE
dc.source.es_PE.fl_str_mv Universidad Nacional de San Agustín de Arequipa
Repositorio Institucional - UNSA
dc.source.none.fl_str_mv reponame:UNSA-Institucional
instname:Universidad Nacional de San Agustín
instacron:UNSA
instname_str Universidad Nacional de San Agustín
instacron_str UNSA
institution UNSA
reponame_str UNSA-Institucional
collection UNSA-Institucional
bitstream.url.fl_str_mv https://repositorio.unsa.edu.pe/bitstreams/aee2bfae-51e9-42b2-9e32-64db5aecd07d/download
https://repositorio.unsa.edu.pe/bitstreams/fab03f8d-e081-4d45-8b67-75df39d310d3/download
bitstream.checksum.fl_str_mv 0c79f542ac9140f7ee88aef9871dc3c2
902b55489ad65e96ac518d624110d63a
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositorio Institucional UNSA
repository.mail.fl_str_mv repositorio@unsa.edu.pe
_version_ 1828763004366225408
score 13.936188
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).