Soluciones aproximadas para algoritmos escalables de minoración de datos en dominios complejos

Ocsa Mamani, Alexander Víctor

Soluciones aproximadas para algoritmos escalables de minoración de datos en dominios complejos

Descripción del Articulo

La creciente disponibilidad de datos en diferentes ámbitos ha motivado el desarrollo de técnicas para el descubrimiento de conocimientos en grandes volúmenes de datos complejos. Un trabajo reciente muestra que la búsqueda del vecino más cercano en dominios de datos complejos es un importante campo d...

Descripción completa

Detalles Bibliográficos
Autor:	Ocsa Mamani, Alexander Víctor
Formato:	tesis de grado
Fecha de Publicación:	2015
Institución:	Universidad Nacional de San Agustín
Repositorio:	UNSA-Institucional
Lenguaje:	español
OAI Identifier:	oai:repositorio.unsa.edu.pe:UNSA/3230
Enlace del recurso:	http://repositorio.unsa.edu.pe/handle/UNSA/3230
Nivel de acceso:	acceso abierto
Materia:	Dimensionalidad Métodos Arquitecturas Programación CUDA Hashing Motifs https://purl.org/pe-repo/ocde/ford#2.02.04

id	UNSA_9110ec563d1ac5d2266c6c3498fc9d53
oai_identifier_str	oai:repositorio.unsa.edu.pe:UNSA/3230
network_acronym_str	UNSA
network_name_str	UNSA-Institucional
repository_id_str	4847
spelling	Ocsa Mamani, Alexander Víctor2017-10-21T16:50:31Z2017-10-21T16:50:31Z2015La creciente disponibilidad de datos en diferentes ámbitos ha motivado el desarrollo de técnicas para el descubrimiento de conocimientos en grandes volúmenes de datos complejos. Un trabajo reciente muestra que la búsqueda del vecino más cercano en dominios de datos complejos es un importante campo de investigación en muchas tareas de minería de datos. Para resolver el problema de la búsqueda de los vecinos más cercanos se han propuesto muchos enfoques para reducir los efectos de la maldición de la alta dimensionalidad de los datos. Aunque se han propuesto muchos métodos exactos y aproximados, el modelo de programación impone restricciones sobre el rendimiento en la CPU para estos tipos de soluciones. Una forma de mejorar el tiempo de ejecución de las técnicas de recuperación y extracción de datos en varias órdenes de magnitud es el empleo de las nuevas arquitecturas de programación paralela, como CUDA. En ese contexto, este trabajo presenta una propuesta para búsquedas kNN basado en una técnica Hashing e implementaciones paralelas en CUDA. La técnica propuesta está basado en el esquema de indexación LSH, o sea, usa proyecciones en subespacios. LSH es una solución aproximada y tiene la ventaja de permitir consultas de costo sublinear para datos en altas dimensiones. Usando implementaciones masivamente paralelas se mejoro tareas de minería de datos. Específicamente, fueron desarrollados soluciones de alto desempeño para la identificación de Motifs basado en implementaciones paralelas de consultas kNN. Las implementaciones masivamente paralelas en CUDA permitieron ejecutar estudios experimentales sobre grandes conjuntos de datos reales y sintéticos. La validación de desempeño usando una GeForce GTX470 resulto en un aumento de desempeño de hasta 7 veces, en media sobre el estado del arte en búsquedas por similitud e identificación de Motifs.Tesisapplication/pdfhttp://repositorio.unsa.edu.pe/handle/UNSA/3230spaUniversidad Nacional de San Agustín de ArequipaPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/2.5/pe/Universidad Nacional de San Agustín de ArequipaRepositorio Institucional - UNSAreponame:UNSA-Institucionalinstname:Universidad Nacional de San Agustíninstacron:UNSADimensionalidadMétodosArquitecturasProgramaciónCUDAHashingMotifshttps://purl.org/pe-repo/ocde/ford#2.02.04Soluciones aproximadas para algoritmos escalables de minoración de datos en dominios complejosinfo:eu-repo/semantics/bachelorThesisSUNEDU612076http://purl.org/pe-repo/renati/level#tituloProfesionalhttp://purl.org/pe-repo/renati/type#tesisIngeniería de SistemasUniversidad Nacional de San Agustín de Arequipa.Facultad de Ingeniería de Producción y ServiciosTítulo ProfesionalIngeniero de SistemasORIGINALISocmaav01.pdfapplication/pdf7982804https://repositorio.unsa.edu.pe/bitstreams/aee2bfae-51e9-42b2-9e32-64db5aecd07d/download0c79f542ac9140f7ee88aef9871dc3c2MD51TEXTISocmaav01.pdf.txtISocmaav01.pdf.txtExtracted texttext/plain254589https://repositorio.unsa.edu.pe/bitstreams/fab03f8d-e081-4d45-8b67-75df39d310d3/download902b55489ad65e96ac518d624110d63aMD52UNSA/3230oai:repositorio.unsa.edu.pe:UNSA/32302022-12-13 00:37:09.453http://creativecommons.org/licenses/by-nc-nd/2.5/pe/info:eu-repo/semantics/openAccesshttps://repositorio.unsa.edu.peRepositorio Institucional UNSArepositorio@unsa.edu.pe
dc.title.es_PE.fl_str_mv	Soluciones aproximadas para algoritmos escalables de minoración de datos en dominios complejos
title	Soluciones aproximadas para algoritmos escalables de minoración de datos en dominios complejos
spellingShingle	Soluciones aproximadas para algoritmos escalables de minoración de datos en dominios complejos Ocsa Mamani, Alexander Víctor Dimensionalidad Métodos Arquitecturas Programación CUDA Hashing Motifs https://purl.org/pe-repo/ocde/ford#2.02.04
title_short	Soluciones aproximadas para algoritmos escalables de minoración de datos en dominios complejos
title_full	Soluciones aproximadas para algoritmos escalables de minoración de datos en dominios complejos
title_fullStr	Soluciones aproximadas para algoritmos escalables de minoración de datos en dominios complejos
title_full_unstemmed	Soluciones aproximadas para algoritmos escalables de minoración de datos en dominios complejos
title_sort	Soluciones aproximadas para algoritmos escalables de minoración de datos en dominios complejos
author	Ocsa Mamani, Alexander Víctor
author_facet	Ocsa Mamani, Alexander Víctor
author_role	author
dc.contributor.author.fl_str_mv	Ocsa Mamani, Alexander Víctor
dc.subject.es_PE.fl_str_mv	Dimensionalidad Métodos Arquitecturas Programación CUDA Hashing Motifs
topic	Dimensionalidad Métodos Arquitecturas Programación CUDA Hashing Motifs https://purl.org/pe-repo/ocde/ford#2.02.04
dc.subject.ocde.es_PE.fl_str_mv	https://purl.org/pe-repo/ocde/ford#2.02.04
description	La creciente disponibilidad de datos en diferentes ámbitos ha motivado el desarrollo de técnicas para el descubrimiento de conocimientos en grandes volúmenes de datos complejos. Un trabajo reciente muestra que la búsqueda del vecino más cercano en dominios de datos complejos es un importante campo de investigación en muchas tareas de minería de datos. Para resolver el problema de la búsqueda de los vecinos más cercanos se han propuesto muchos enfoques para reducir los efectos de la maldición de la alta dimensionalidad de los datos. Aunque se han propuesto muchos métodos exactos y aproximados, el modelo de programación impone restricciones sobre el rendimiento en la CPU para estos tipos de soluciones. Una forma de mejorar el tiempo de ejecución de las técnicas de recuperación y extracción de datos en varias órdenes de magnitud es el empleo de las nuevas arquitecturas de programación paralela, como CUDA. En ese contexto, este trabajo presenta una propuesta para búsquedas kNN basado en una técnica Hashing e implementaciones paralelas en CUDA. La técnica propuesta está basado en el esquema de indexación LSH, o sea, usa proyecciones en subespacios. LSH es una solución aproximada y tiene la ventaja de permitir consultas de costo sublinear para datos en altas dimensiones. Usando implementaciones masivamente paralelas se mejoro tareas de minería de datos. Específicamente, fueron desarrollados soluciones de alto desempeño para la identificación de Motifs basado en implementaciones paralelas de consultas kNN. Las implementaciones masivamente paralelas en CUDA permitieron ejecutar estudios experimentales sobre grandes conjuntos de datos reales y sintéticos. La validación de desempeño usando una GeForce GTX470 resulto en un aumento de desempeño de hasta 7 veces, en media sobre el estado del arte en búsquedas por similitud e identificación de Motifs.
publishDate	2015
dc.date.accessioned.none.fl_str_mv	2017-10-21T16:50:31Z
dc.date.available.none.fl_str_mv	2017-10-21T16:50:31Z
dc.date.issued.fl_str_mv	2015
dc.type.es_PE.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
dc.identifier.uri.none.fl_str_mv	http://repositorio.unsa.edu.pe/handle/UNSA/3230
url	http://repositorio.unsa.edu.pe/handle/UNSA/3230
dc.language.iso.es_PE.fl_str_mv	spa
language	spa
dc.relation.ispartof.fl_str_mv	SUNEDU
dc.rights.es_PE.fl_str_mv	info:eu-repo/semantics/openAccess
dc.rights.uri.es_PE.fl_str_mv	http://creativecommons.org/licenses/by-nc-nd/2.5/pe/
eu_rights_str_mv	openAccess
rights_invalid_str_mv	http://creativecommons.org/licenses/by-nc-nd/2.5/pe/
dc.format.es_PE.fl_str_mv	application/pdf
dc.publisher.es_PE.fl_str_mv	Universidad Nacional de San Agustín de Arequipa
dc.publisher.country.es_PE.fl_str_mv	PE
dc.source.es_PE.fl_str_mv	Universidad Nacional de San Agustín de Arequipa Repositorio Institucional - UNSA
dc.source.none.fl_str_mv	reponame:UNSA-Institucional instname:Universidad Nacional de San Agustín instacron:UNSA
instname_str	Universidad Nacional de San Agustín
instacron_str	UNSA
institution	UNSA
reponame_str	UNSA-Institucional
collection	UNSA-Institucional
bitstream.url.fl_str_mv	https://repositorio.unsa.edu.pe/bitstreams/aee2bfae-51e9-42b2-9e32-64db5aecd07d/download https://repositorio.unsa.edu.pe/bitstreams/fab03f8d-e081-4d45-8b67-75df39d310d3/download
bitstream.checksum.fl_str_mv	0c79f542ac9140f7ee88aef9871dc3c2 902b55489ad65e96ac518d624110d63a
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositorio Institucional UNSA
repository.mail.fl_str_mv	repositorio@unsa.edu.pe
_version_	1828763004366225408
score	13.936188

Soluciones aproximadas para algoritmos escalables de minoración de datos en dominios complejos

Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).

Soluciones aproximadas para algoritmos escalables de minoración de datos en dominios complejos

Descripción del Articulo

Ejemplares Similares