Método de agrupamiento no supervisado para el procesamiento del lenguaje natural utilizando medidas de similitud asimétricas y propiedades paradigmáticas
Descripción del Articulo
Una de las tareas más comunes para el ser humano, pero de con una alta complejidad es la agrupación y clasificación. Por otro lado, la debilidad del ser humano es la capacidad de procesar altas cantidades de datos y de forma rápida, característica propia de los computadores. Hoy en día se generan gr...
Autor: | |
---|---|
Formato: | tesis doctoral |
Fecha de Publicación: | 2016 |
Institución: | Universidad Nacional de San Agustín |
Repositorio: | UNSA-Institucional |
Lenguaje: | español |
OAI Identifier: | oai:repositorio.unsa.edu.pe:20.500.12773/12278 |
Enlace del recurso: | http://hdl.handle.net/20.500.12773/12278 |
Nivel de acceso: | acceso abierto |
Materia: | Clustering paradigmatic similarity asymmetric similarity similarity coefficient https://purl.org/pe-repo/ocde/ford#1.02.01 |
id |
UNSA_0e6f655c9f7f9073cb0eda4f0e76a198 |
---|---|
oai_identifier_str |
oai:repositorio.unsa.edu.pe:20.500.12773/12278 |
network_acronym_str |
UNSA |
network_name_str |
UNSA-Institucional |
repository_id_str |
4847 |
dc.title.es_PE.fl_str_mv |
Método de agrupamiento no supervisado para el procesamiento del lenguaje natural utilizando medidas de similitud asimétricas y propiedades paradigmáticas |
title |
Método de agrupamiento no supervisado para el procesamiento del lenguaje natural utilizando medidas de similitud asimétricas y propiedades paradigmáticas |
spellingShingle |
Método de agrupamiento no supervisado para el procesamiento del lenguaje natural utilizando medidas de similitud asimétricas y propiedades paradigmáticas Santisteban Pablo, Julio Omar Clustering paradigmatic similarity asymmetric similarity similarity coefficient https://purl.org/pe-repo/ocde/ford#1.02.01 |
title_short |
Método de agrupamiento no supervisado para el procesamiento del lenguaje natural utilizando medidas de similitud asimétricas y propiedades paradigmáticas |
title_full |
Método de agrupamiento no supervisado para el procesamiento del lenguaje natural utilizando medidas de similitud asimétricas y propiedades paradigmáticas |
title_fullStr |
Método de agrupamiento no supervisado para el procesamiento del lenguaje natural utilizando medidas de similitud asimétricas y propiedades paradigmáticas |
title_full_unstemmed |
Método de agrupamiento no supervisado para el procesamiento del lenguaje natural utilizando medidas de similitud asimétricas y propiedades paradigmáticas |
title_sort |
Método de agrupamiento no supervisado para el procesamiento del lenguaje natural utilizando medidas de similitud asimétricas y propiedades paradigmáticas |
author |
Santisteban Pablo, Julio Omar |
author_facet |
Santisteban Pablo, Julio Omar |
author_role |
author |
dc.contributor.advisor.fl_str_mv |
Tejada Carcamo, Javier Leandro |
dc.contributor.author.fl_str_mv |
Santisteban Pablo, Julio Omar |
dc.subject.es_PE.fl_str_mv |
Clustering paradigmatic similarity asymmetric similarity similarity coefficient |
topic |
Clustering paradigmatic similarity asymmetric similarity similarity coefficient https://purl.org/pe-repo/ocde/ford#1.02.01 |
dc.subject.ocde.es_PE.fl_str_mv |
https://purl.org/pe-repo/ocde/ford#1.02.01 |
description |
Una de las tareas más comunes para el ser humano, pero de con una alta complejidad es la agrupación y clasificación. Por otro lado, la debilidad del ser humano es la capacidad de procesar altas cantidades de datos y de forma rápida, característica propia de los computadores. Hoy en día se generan grandes cantidades de datos en el Internet, datos de distintos tipos y con diferentes objetivos. Para esto se necesitan de algoritmos de agrupación que nos permitan identificar los distintos grupos y características de estos grupos, de forma automática sin conocimiento previo. Por otro lado, es importante definir con claridad qué medida de similitud se utilizará en el proceso de agrupación, la gran mayoría de las medidas de agrupación se enfocan en un aspecto simétrico. En la presente tesis se propone una novedosa medida de similitud asimétrica, Coeficiente d Similitud Unilateral Jaccard (uJaccard), similitud no es igual entre dos objetos uJaccard(a,b) ≠ uJaccard(b,a). Así también se presenta una similitud asimétrica con pesos Coeficiente Ponderado de Similitud Unilateral Jaccard, la cual mide el nivel de incertidumbre entre dos objetos. Así también en esta tesis se propone una nueva propiedad de grafos, la propiedad paradigmática la cual considera la equivalencia regular como característica fundamental y por último se propone un algoritmo de agrupación PaC, por sus siglas en inglés Paradigmatic Clustering, el cual incorpora la uJaccard y la propiedad paradigmática. Se ha realizado evaluaciones extensivas con datos pequeños, reales, sintéticos y se ha procesado 3 grandes corpus. Se ha demostrado que PaC es un algoritmo que sobre pasa los resultados de algoritmos de agrupación del estado del arte. Más aun PaC es un algoritmo capas de ser ejecutado de forma paralela, distribuida, incremental y en flujo, características que se necesitan para el procedimiento de grandes cantidades de datos y de constante generación de datos |
publishDate |
2016 |
dc.date.accessioned.none.fl_str_mv |
2021-05-27T00:28:02Z |
dc.date.available.none.fl_str_mv |
2021-05-27T00:28:02Z |
dc.date.issued.fl_str_mv |
2016 |
dc.type.es_PE.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/20.500.12773/12278 |
url |
http://hdl.handle.net/20.500.12773/12278 |
dc.language.iso.es_PE.fl_str_mv |
spa |
language |
spa |
dc.relation.ispartof.fl_str_mv |
SUNEDU |
dc.rights.es_PE.fl_str_mv |
info:eu-repo/semantics/openAccess |
dc.rights.uri.es_PE.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ |
dc.format.es_PE.fl_str_mv |
application/pdf |
dc.publisher.es_PE.fl_str_mv |
Universidad Nacional de San Agustín de Arequipa |
dc.publisher.country.es_PE.fl_str_mv |
PE |
dc.source.es_PE.fl_str_mv |
Universidad Nacional de San Agustín de Arequipa Repositorio Institucional - UNSA |
dc.source.none.fl_str_mv |
reponame:UNSA-Institucional instname:Universidad Nacional de San Agustín instacron:UNSA |
instname_str |
Universidad Nacional de San Agustín |
instacron_str |
UNSA |
institution |
UNSA |
reponame_str |
UNSA-Institucional |
collection |
UNSA-Institucional |
bitstream.url.fl_str_mv |
https://repositorio.unsa.edu.pe/bitstreams/00b63ab6-f371-4dcb-85b9-f67f673795a4/download https://repositorio.unsa.edu.pe/bitstreams/9acaf2e6-d5f8-42f7-8561-a909d34f8189/download https://repositorio.unsa.edu.pe/bitstreams/b2ea116c-b8e5-4163-8a0c-cf77ea831bc6/download |
bitstream.checksum.fl_str_mv |
c52066b9c50a8f86be96c82978636682 cec907422e61fee7e43cb2e8283d8544 9e478da9e957da1a68578e8ff61c73a3 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio Institucional UNSA |
repository.mail.fl_str_mv |
repositorio@unsa.edu.pe |
_version_ |
1828762786388246528 |
spelling |
Tejada Carcamo, Javier LeandroSantisteban Pablo, Julio Omar2021-05-27T00:28:02Z2021-05-27T00:28:02Z2016Una de las tareas más comunes para el ser humano, pero de con una alta complejidad es la agrupación y clasificación. Por otro lado, la debilidad del ser humano es la capacidad de procesar altas cantidades de datos y de forma rápida, característica propia de los computadores. Hoy en día se generan grandes cantidades de datos en el Internet, datos de distintos tipos y con diferentes objetivos. Para esto se necesitan de algoritmos de agrupación que nos permitan identificar los distintos grupos y características de estos grupos, de forma automática sin conocimiento previo. Por otro lado, es importante definir con claridad qué medida de similitud se utilizará en el proceso de agrupación, la gran mayoría de las medidas de agrupación se enfocan en un aspecto simétrico. En la presente tesis se propone una novedosa medida de similitud asimétrica, Coeficiente d Similitud Unilateral Jaccard (uJaccard), similitud no es igual entre dos objetos uJaccard(a,b) ≠ uJaccard(b,a). Así también se presenta una similitud asimétrica con pesos Coeficiente Ponderado de Similitud Unilateral Jaccard, la cual mide el nivel de incertidumbre entre dos objetos. Así también en esta tesis se propone una nueva propiedad de grafos, la propiedad paradigmática la cual considera la equivalencia regular como característica fundamental y por último se propone un algoritmo de agrupación PaC, por sus siglas en inglés Paradigmatic Clustering, el cual incorpora la uJaccard y la propiedad paradigmática. Se ha realizado evaluaciones extensivas con datos pequeños, reales, sintéticos y se ha procesado 3 grandes corpus. Se ha demostrado que PaC es un algoritmo que sobre pasa los resultados de algoritmos de agrupación del estado del arte. Más aun PaC es un algoritmo capas de ser ejecutado de forma paralela, distribuida, incremental y en flujo, características que se necesitan para el procedimiento de grandes cantidades de datos y de constante generación de datosapplication/pdfhttp://hdl.handle.net/20.500.12773/12278spaUniversidad Nacional de San Agustín de ArequipaPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/4.0/Universidad Nacional de San Agustín de ArequipaRepositorio Institucional - UNSAreponame:UNSA-Institucionalinstname:Universidad Nacional de San Agustíninstacron:UNSAClusteringparadigmatic similarityasymmetric similaritysimilarity coefficienthttps://purl.org/pe-repo/ocde/ford#1.02.01Método de agrupamiento no supervisado para el procesamiento del lenguaje natural utilizando medidas de similitud asimétricas y propiedades paradigmáticasinfo:eu-repo/semantics/doctoralThesisSUNEDU29694064https://orcid.org/0000-0003-2204-737129352446611028Alfaro Casas, Luis AlbertoTejada Carcamo, Javier LeandroQuispe Cruz, Marcelahttp://purl.org/pe-repo/renati/level#doctorhttp://purl.org/pe-repo/renati/type#tesisDoctorado en Ciencias de la ComputaciónUniversidad Nacional de San Agustín de Arequipa.Unidad de Posgrado.Facultad de Ingeniería de Producción y ServiciosDoctor en Ciencias de la ComputaciónLICENSElicense.txtlicense.txttext/plain; charset=utf-81327https://repositorio.unsa.edu.pe/bitstreams/00b63ab6-f371-4dcb-85b9-f67f673795a4/downloadc52066b9c50a8f86be96c82978636682MD52ORIGINALUPsapajo.pdfUPsapajo.pdfapplication/pdf8035871https://repositorio.unsa.edu.pe/bitstreams/9acaf2e6-d5f8-42f7-8561-a909d34f8189/downloadcec907422e61fee7e43cb2e8283d8544MD53TEXTUPsapajo.pdf.txtUPsapajo.pdf.txtExtracted texttext/plain379240https://repositorio.unsa.edu.pe/bitstreams/b2ea116c-b8e5-4163-8a0c-cf77ea831bc6/download9e478da9e957da1a68578e8ff61c73a3MD5420.500.12773/12278oai:repositorio.unsa.edu.pe:20.500.12773/122782022-05-29 11:32:49.355http://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccesshttps://repositorio.unsa.edu.peRepositorio Institucional UNSArepositorio@unsa.edu.pe77u/TGljZW5jaWEgZGUgVXNvCiAKRWwgUmVwb3NpdG9yaW8gSW5zdGl0dWNpb25hbCwgZGlmdW5kZSBtZWRpYW50ZSBsb3MgdHJhYmFqb3MgZGUgaW52ZXN0aWdhY2nDs24gcHJvZHVjaWRvcyBwb3IgbG9zIG1pZW1icm9zIGRlIGxhIHVuaXZlcnNpZGFkLiBFbCBjb250ZW5pZG8gZGUgbG9zIGRvY3VtZW50b3MgZGlnaXRhbGVzIGVzIGRlIGFjY2VzbyBhYmllcnRvIHBhcmEgdG9kYSBwZXJzb25hIGludGVyZXNhZGEuCgpTZSBhY2VwdGEgbGEgZGlmdXNpw7NuIHDDumJsaWNhIGRlIGxhIG9icmEsIHN1IGNvcGlhIHkgZGlzdHJpYnVjacOzbi4gUGFyYSBlc3RvIGVzIG5lY2VzYXJpbyBxdWUgc2UgY3VtcGxhIGNvbiBsYXMgc2lndWllbnRlcyBjb25kaWNpb25lczoKCkVsIG5lY2VzYXJpbyByZWNvbm9jaW1pZW50byBkZSBsYSBhdXRvcsOtYSBkZSBsYSBvYnJhLCBpZGVudGlmaWNhbmRvIG9wb3J0dW5hIHkgY29ycmVjdGFtZW50ZSBhIGxhIHBlcnNvbmEgcXVlIHBvc2VhIGxvcyBkZXJlY2hvcyBkZSBhdXRvci4KCk5vIGVzdMOhIHBlcm1pdGlkbyBlbCB1c28gaW5kZWJpZG8gZGVsIHRyYWJham8gZGUgaW52ZXN0aWdhY2nDs24gY29uIGZpbmVzIGRlIGx1Y3JvIG8gY3VhbHF1aWVyIHRpcG8gZGUgYWN0aXZpZGFkIHF1ZSBwcm9kdXpjYSBnYW5hbmNpYXMgYSBsYXMgcGVyc29uYXMgcXVlIGxvIGRpZnVuZGVuIHNpbiBlbCBjb25zZW50aW1pZW50byBkZWwgYXV0b3IgKGF1dG9yIGxlZ2FsKS4KCkxvcyBkZXJlY2hvcyBtb3JhbGVzIGRlbCBhdXRvciBubyBzb24gYWZlY3RhZG9zIHBvciBsYSBwcmVzZW50ZSBsaWNlbmNpYSBkZSB1c28uCgpEZXJlY2hvcyBkZSBhdXRvcgoKTGEgdW5pdmVyc2lkYWQgbm8gcG9zZWUgbG9zIGRlcmVjaG9zIGRlIHByb3BpZWRhZCBpbnRlbGVjdHVhbC4gTG9zIGRlcmVjaG9zIGRlIGF1dG9yIHNlIGVuY3VlbnRyYW4gcHJvdGVnaWRvcyBwb3IgbGEgbGVnaXNsYWNpw7NuIHBlcnVhbmE6IExleSBzb2JyZSBlbCBEZXJlY2hvIGRlIEF1dG9yIHByb211bGdhZG8gZW4gMTk5NiAoRC5MLiBOwrA4MjIpLCBMZXkgcXVlIG1vZGlmaWNhIGxvcyBhcnTDrWN1bG9zIDE4OMKwIHkgMTg5wrAgZGVsIGRlY3JldG8gbGVnaXNsYXRpdm8gTsKwODIyLCBMZXkgc29icmUgZGVyZWNob3MgZGUgYXV0b3IgcHJvbXVsZ2FkbyBlbiAyMDA1IChMZXkgTsKwMjg1MTcpLCBEZWNyZXRvIExlZ2lzbGF0aXZvIHF1ZSBhcHJ1ZWJhIGxhIG1vZGlmaWNhY2nDs24gZGVsIERlY3JldG8gTGVnaXNsYXRpdm8gTsKwODIyLCBMZXkgc29icmUgZWwgRGVyZWNobyBkZSBBdXRvciBwcm9tdWxnYWRvIGVuIDIwMDggKEQuTC4gTsKwMTA3NikuCg== |
score |
13.919782 |
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).