Soluciones aproximadas para algoritmos escalables de minoración de datos en dominios complejos
Descripción del Articulo
La creciente disponibilidad de datos en diferentes ámbitos ha motivado el desarrollo de técnicas para el descubrimiento de conocimientos en grandes volúmenes de datos complejos. Un trabajo reciente muestra que la búsqueda del vecino más cercano en dominios de datos complejos es un importante campo d...
| Autor: | |
|---|---|
| Formato: | tesis de grado |
| Fecha de Publicación: | 2015 |
| Institución: | Universidad Nacional de San Agustín |
| Repositorio: | UNSA-Institucional |
| Lenguaje: | español |
| OAI Identifier: | oai:repositorio.unsa.edu.pe:UNSA/3230 |
| Enlace del recurso: | http://repositorio.unsa.edu.pe/handle/UNSA/3230 |
| Nivel de acceso: | acceso abierto |
| Materia: | Dimensionalidad Métodos Arquitecturas Programación CUDA Hashing Motifs https://purl.org/pe-repo/ocde/ford#2.02.04 |
| id |
UNSA_9110ec563d1ac5d2266c6c3498fc9d53 |
|---|---|
| oai_identifier_str |
oai:repositorio.unsa.edu.pe:UNSA/3230 |
| network_acronym_str |
UNSA |
| network_name_str |
UNSA-Institucional |
| repository_id_str |
4847 |
| spelling |
Ocsa Mamani, Alexander Víctor2017-10-21T16:50:31Z2017-10-21T16:50:31Z2015La creciente disponibilidad de datos en diferentes ámbitos ha motivado el desarrollo de técnicas para el descubrimiento de conocimientos en grandes volúmenes de datos complejos. Un trabajo reciente muestra que la búsqueda del vecino más cercano en dominios de datos complejos es un importante campo de investigación en muchas tareas de minería de datos. Para resolver el problema de la búsqueda de los vecinos más cercanos se han propuesto muchos enfoques para reducir los efectos de la maldición de la alta dimensionalidad de los datos. Aunque se han propuesto muchos métodos exactos y aproximados, el modelo de programación impone restricciones sobre el rendimiento en la CPU para estos tipos de soluciones. Una forma de mejorar el tiempo de ejecución de las técnicas de recuperación y extracción de datos en varias órdenes de magnitud es el empleo de las nuevas arquitecturas de programación paralela, como CUDA. En ese contexto, este trabajo presenta una propuesta para búsquedas kNN basado en una técnica Hashing e implementaciones paralelas en CUDA. La técnica propuesta está basado en el esquema de indexación LSH, o sea, usa proyecciones en subespacios. LSH es una solución aproximada y tiene la ventaja de permitir consultas de costo sublinear para datos en altas dimensiones. Usando implementaciones masivamente paralelas se mejoro tareas de minería de datos. Específicamente, fueron desarrollados soluciones de alto desempeño para la identificación de Motifs basado en implementaciones paralelas de consultas kNN. Las implementaciones masivamente paralelas en CUDA permitieron ejecutar estudios experimentales sobre grandes conjuntos de datos reales y sintéticos. La validación de desempeño usando una GeForce GTX470 resulto en un aumento de desempeño de hasta 7 veces, en media sobre el estado del arte en búsquedas por similitud e identificación de Motifs.Tesisapplication/pdfhttp://repositorio.unsa.edu.pe/handle/UNSA/3230spaUniversidad Nacional de San Agustín de ArequipaPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/2.5/pe/Universidad Nacional de San Agustín de ArequipaRepositorio Institucional - UNSAreponame:UNSA-Institucionalinstname:Universidad Nacional de San Agustíninstacron:UNSADimensionalidadMétodosArquitecturasProgramaciónCUDAHashingMotifshttps://purl.org/pe-repo/ocde/ford#2.02.04Soluciones aproximadas para algoritmos escalables de minoración de datos en dominios complejosinfo:eu-repo/semantics/bachelorThesisSUNEDU612076http://purl.org/pe-repo/renati/level#tituloProfesionalhttp://purl.org/pe-repo/renati/type#tesisIngeniería de SistemasUniversidad Nacional de San Agustín de Arequipa.Facultad de Ingeniería de Producción y ServiciosTítulo ProfesionalIngeniero de SistemasORIGINALISocmaav01.pdfapplication/pdf7982804https://repositorio.unsa.edu.pe/bitstreams/aee2bfae-51e9-42b2-9e32-64db5aecd07d/download0c79f542ac9140f7ee88aef9871dc3c2MD51TEXTISocmaav01.pdf.txtISocmaav01.pdf.txtExtracted texttext/plain254589https://repositorio.unsa.edu.pe/bitstreams/fab03f8d-e081-4d45-8b67-75df39d310d3/download902b55489ad65e96ac518d624110d63aMD52UNSA/3230oai:repositorio.unsa.edu.pe:UNSA/32302022-12-13 00:37:09.453http://creativecommons.org/licenses/by-nc-nd/2.5/pe/info:eu-repo/semantics/openAccesshttps://repositorio.unsa.edu.peRepositorio Institucional UNSArepositorio@unsa.edu.pe |
| dc.title.es_PE.fl_str_mv |
Soluciones aproximadas para algoritmos escalables de minoración de datos en dominios complejos |
| title |
Soluciones aproximadas para algoritmos escalables de minoración de datos en dominios complejos |
| spellingShingle |
Soluciones aproximadas para algoritmos escalables de minoración de datos en dominios complejos Ocsa Mamani, Alexander Víctor Dimensionalidad Métodos Arquitecturas Programación CUDA Hashing Motifs https://purl.org/pe-repo/ocde/ford#2.02.04 |
| title_short |
Soluciones aproximadas para algoritmos escalables de minoración de datos en dominios complejos |
| title_full |
Soluciones aproximadas para algoritmos escalables de minoración de datos en dominios complejos |
| title_fullStr |
Soluciones aproximadas para algoritmos escalables de minoración de datos en dominios complejos |
| title_full_unstemmed |
Soluciones aproximadas para algoritmos escalables de minoración de datos en dominios complejos |
| title_sort |
Soluciones aproximadas para algoritmos escalables de minoración de datos en dominios complejos |
| author |
Ocsa Mamani, Alexander Víctor |
| author_facet |
Ocsa Mamani, Alexander Víctor |
| author_role |
author |
| dc.contributor.author.fl_str_mv |
Ocsa Mamani, Alexander Víctor |
| dc.subject.es_PE.fl_str_mv |
Dimensionalidad Métodos Arquitecturas Programación CUDA Hashing Motifs |
| topic |
Dimensionalidad Métodos Arquitecturas Programación CUDA Hashing Motifs https://purl.org/pe-repo/ocde/ford#2.02.04 |
| dc.subject.ocde.es_PE.fl_str_mv |
https://purl.org/pe-repo/ocde/ford#2.02.04 |
| description |
La creciente disponibilidad de datos en diferentes ámbitos ha motivado el desarrollo de técnicas para el descubrimiento de conocimientos en grandes volúmenes de datos complejos. Un trabajo reciente muestra que la búsqueda del vecino más cercano en dominios de datos complejos es un importante campo de investigación en muchas tareas de minería de datos. Para resolver el problema de la búsqueda de los vecinos más cercanos se han propuesto muchos enfoques para reducir los efectos de la maldición de la alta dimensionalidad de los datos. Aunque se han propuesto muchos métodos exactos y aproximados, el modelo de programación impone restricciones sobre el rendimiento en la CPU para estos tipos de soluciones. Una forma de mejorar el tiempo de ejecución de las técnicas de recuperación y extracción de datos en varias órdenes de magnitud es el empleo de las nuevas arquitecturas de programación paralela, como CUDA. En ese contexto, este trabajo presenta una propuesta para búsquedas kNN basado en una técnica Hashing e implementaciones paralelas en CUDA. La técnica propuesta está basado en el esquema de indexación LSH, o sea, usa proyecciones en subespacios. LSH es una solución aproximada y tiene la ventaja de permitir consultas de costo sublinear para datos en altas dimensiones. Usando implementaciones masivamente paralelas se mejoro tareas de minería de datos. Específicamente, fueron desarrollados soluciones de alto desempeño para la identificación de Motifs basado en implementaciones paralelas de consultas kNN. Las implementaciones masivamente paralelas en CUDA permitieron ejecutar estudios experimentales sobre grandes conjuntos de datos reales y sintéticos. La validación de desempeño usando una GeForce GTX470 resulto en un aumento de desempeño de hasta 7 veces, en media sobre el estado del arte en búsquedas por similitud e identificación de Motifs. |
| publishDate |
2015 |
| dc.date.accessioned.none.fl_str_mv |
2017-10-21T16:50:31Z |
| dc.date.available.none.fl_str_mv |
2017-10-21T16:50:31Z |
| dc.date.issued.fl_str_mv |
2015 |
| dc.type.es_PE.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
| format |
bachelorThesis |
| dc.identifier.uri.none.fl_str_mv |
http://repositorio.unsa.edu.pe/handle/UNSA/3230 |
| url |
http://repositorio.unsa.edu.pe/handle/UNSA/3230 |
| dc.language.iso.es_PE.fl_str_mv |
spa |
| language |
spa |
| dc.relation.ispartof.fl_str_mv |
SUNEDU |
| dc.rights.es_PE.fl_str_mv |
info:eu-repo/semantics/openAccess |
| dc.rights.uri.es_PE.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/2.5/pe/ |
| eu_rights_str_mv |
openAccess |
| rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/2.5/pe/ |
| dc.format.es_PE.fl_str_mv |
application/pdf |
| dc.publisher.es_PE.fl_str_mv |
Universidad Nacional de San Agustín de Arequipa |
| dc.publisher.country.es_PE.fl_str_mv |
PE |
| dc.source.es_PE.fl_str_mv |
Universidad Nacional de San Agustín de Arequipa Repositorio Institucional - UNSA |
| dc.source.none.fl_str_mv |
reponame:UNSA-Institucional instname:Universidad Nacional de San Agustín instacron:UNSA |
| instname_str |
Universidad Nacional de San Agustín |
| instacron_str |
UNSA |
| institution |
UNSA |
| reponame_str |
UNSA-Institucional |
| collection |
UNSA-Institucional |
| bitstream.url.fl_str_mv |
https://repositorio.unsa.edu.pe/bitstreams/aee2bfae-51e9-42b2-9e32-64db5aecd07d/download https://repositorio.unsa.edu.pe/bitstreams/fab03f8d-e081-4d45-8b67-75df39d310d3/download |
| bitstream.checksum.fl_str_mv |
0c79f542ac9140f7ee88aef9871dc3c2 902b55489ad65e96ac518d624110d63a |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
| repository.name.fl_str_mv |
Repositorio Institucional UNSA |
| repository.mail.fl_str_mv |
repositorio@unsa.edu.pe |
| _version_ |
1828763004366225408 |
| score |
13.936188 |
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).