Método de agrupamiento no supervisado para el procesamiento del lenguaje natural utilizando medidas de similitud asimétricas y propiedades paradigmáticas

Descripción del Articulo

Una de las tareas más comunes para el ser humano, pero de con una alta complejidad es la agrupación y clasificación. Por otro lado, la debilidad del ser humano es la capacidad de procesar altas cantidades de datos y de forma rápida, característica propia de los computadores. Hoy en día se generan gr...

Descripción completa

Detalles Bibliográficos
Autor: Santisteban Pablo, Julio Omar
Formato: tesis doctoral
Fecha de Publicación:2016
Institución:Universidad Nacional de San Agustín
Repositorio:UNSA-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.unsa.edu.pe:20.500.12773/12278
Enlace del recurso:http://hdl.handle.net/20.500.12773/12278
Nivel de acceso:acceso abierto
Materia:Clustering
paradigmatic similarity
asymmetric similarity
similarity coefficient
https://purl.org/pe-repo/ocde/ford#1.02.01
id UNSA_0e6f655c9f7f9073cb0eda4f0e76a198
oai_identifier_str oai:repositorio.unsa.edu.pe:20.500.12773/12278
network_acronym_str UNSA
network_name_str UNSA-Institucional
repository_id_str 4847
dc.title.es_PE.fl_str_mv Método de agrupamiento no supervisado para el procesamiento del lenguaje natural utilizando medidas de similitud asimétricas y propiedades paradigmáticas
title Método de agrupamiento no supervisado para el procesamiento del lenguaje natural utilizando medidas de similitud asimétricas y propiedades paradigmáticas
spellingShingle Método de agrupamiento no supervisado para el procesamiento del lenguaje natural utilizando medidas de similitud asimétricas y propiedades paradigmáticas
Santisteban Pablo, Julio Omar
Clustering
paradigmatic similarity
asymmetric similarity
similarity coefficient
https://purl.org/pe-repo/ocde/ford#1.02.01
title_short Método de agrupamiento no supervisado para el procesamiento del lenguaje natural utilizando medidas de similitud asimétricas y propiedades paradigmáticas
title_full Método de agrupamiento no supervisado para el procesamiento del lenguaje natural utilizando medidas de similitud asimétricas y propiedades paradigmáticas
title_fullStr Método de agrupamiento no supervisado para el procesamiento del lenguaje natural utilizando medidas de similitud asimétricas y propiedades paradigmáticas
title_full_unstemmed Método de agrupamiento no supervisado para el procesamiento del lenguaje natural utilizando medidas de similitud asimétricas y propiedades paradigmáticas
title_sort Método de agrupamiento no supervisado para el procesamiento del lenguaje natural utilizando medidas de similitud asimétricas y propiedades paradigmáticas
author Santisteban Pablo, Julio Omar
author_facet Santisteban Pablo, Julio Omar
author_role author
dc.contributor.advisor.fl_str_mv Tejada Carcamo, Javier Leandro
dc.contributor.author.fl_str_mv Santisteban Pablo, Julio Omar
dc.subject.es_PE.fl_str_mv Clustering
paradigmatic similarity
asymmetric similarity
similarity coefficient
topic Clustering
paradigmatic similarity
asymmetric similarity
similarity coefficient
https://purl.org/pe-repo/ocde/ford#1.02.01
dc.subject.ocde.es_PE.fl_str_mv https://purl.org/pe-repo/ocde/ford#1.02.01
description Una de las tareas más comunes para el ser humano, pero de con una alta complejidad es la agrupación y clasificación. Por otro lado, la debilidad del ser humano es la capacidad de procesar altas cantidades de datos y de forma rápida, característica propia de los computadores. Hoy en día se generan grandes cantidades de datos en el Internet, datos de distintos tipos y con diferentes objetivos. Para esto se necesitan de algoritmos de agrupación que nos permitan identificar los distintos grupos y características de estos grupos, de forma automática sin conocimiento previo. Por otro lado, es importante definir con claridad qué medida de similitud se utilizará en el proceso de agrupación, la gran mayoría de las medidas de agrupación se enfocan en un aspecto simétrico. En la presente tesis se propone una novedosa medida de similitud asimétrica, Coeficiente d Similitud Unilateral Jaccard (uJaccard), similitud no es igual entre dos objetos uJaccard(a,b) ≠ uJaccard(b,a). Así también se presenta una similitud asimétrica con pesos Coeficiente Ponderado de Similitud Unilateral Jaccard, la cual mide el nivel de incertidumbre entre dos objetos. Así también en esta tesis se propone una nueva propiedad de grafos, la propiedad paradigmática la cual considera la equivalencia regular como característica fundamental y por último se propone un algoritmo de agrupación PaC, por sus siglas en inglés Paradigmatic Clustering, el cual incorpora la uJaccard y la propiedad paradigmática. Se ha realizado evaluaciones extensivas con datos pequeños, reales, sintéticos y se ha procesado 3 grandes corpus. Se ha demostrado que PaC es un algoritmo que sobre pasa los resultados de algoritmos de agrupación del estado del arte. Más aun PaC es un algoritmo capas de ser ejecutado de forma paralela, distribuida, incremental y en flujo, características que se necesitan para el procedimiento de grandes cantidades de datos y de constante generación de datos
publishDate 2016
dc.date.accessioned.none.fl_str_mv 2021-05-27T00:28:02Z
dc.date.available.none.fl_str_mv 2021-05-27T00:28:02Z
dc.date.issued.fl_str_mv 2016
dc.type.es_PE.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12773/12278
url http://hdl.handle.net/20.500.12773/12278
dc.language.iso.es_PE.fl_str_mv spa
language spa
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.es_PE.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.es_PE.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.format.es_PE.fl_str_mv application/pdf
dc.publisher.es_PE.fl_str_mv Universidad Nacional de San Agustín de Arequipa
dc.publisher.country.es_PE.fl_str_mv PE
dc.source.es_PE.fl_str_mv Universidad Nacional de San Agustín de Arequipa
Repositorio Institucional - UNSA
dc.source.none.fl_str_mv reponame:UNSA-Institucional
instname:Universidad Nacional de San Agustín
instacron:UNSA
instname_str Universidad Nacional de San Agustín
instacron_str UNSA
institution UNSA
reponame_str UNSA-Institucional
collection UNSA-Institucional
bitstream.url.fl_str_mv https://repositorio.unsa.edu.pe/bitstreams/00b63ab6-f371-4dcb-85b9-f67f673795a4/download
https://repositorio.unsa.edu.pe/bitstreams/9acaf2e6-d5f8-42f7-8561-a909d34f8189/download
https://repositorio.unsa.edu.pe/bitstreams/b2ea116c-b8e5-4163-8a0c-cf77ea831bc6/download
bitstream.checksum.fl_str_mv c52066b9c50a8f86be96c82978636682
cec907422e61fee7e43cb2e8283d8544
9e478da9e957da1a68578e8ff61c73a3
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional UNSA
repository.mail.fl_str_mv repositorio@unsa.edu.pe
_version_ 1828762786388246528
spelling Tejada Carcamo, Javier LeandroSantisteban Pablo, Julio Omar2021-05-27T00:28:02Z2021-05-27T00:28:02Z2016Una de las tareas más comunes para el ser humano, pero de con una alta complejidad es la agrupación y clasificación. Por otro lado, la debilidad del ser humano es la capacidad de procesar altas cantidades de datos y de forma rápida, característica propia de los computadores. Hoy en día se generan grandes cantidades de datos en el Internet, datos de distintos tipos y con diferentes objetivos. Para esto se necesitan de algoritmos de agrupación que nos permitan identificar los distintos grupos y características de estos grupos, de forma automática sin conocimiento previo. Por otro lado, es importante definir con claridad qué medida de similitud se utilizará en el proceso de agrupación, la gran mayoría de las medidas de agrupación se enfocan en un aspecto simétrico. En la presente tesis se propone una novedosa medida de similitud asimétrica, Coeficiente d Similitud Unilateral Jaccard (uJaccard), similitud no es igual entre dos objetos uJaccard(a,b) ≠ uJaccard(b,a). Así también se presenta una similitud asimétrica con pesos Coeficiente Ponderado de Similitud Unilateral Jaccard, la cual mide el nivel de incertidumbre entre dos objetos. Así también en esta tesis se propone una nueva propiedad de grafos, la propiedad paradigmática la cual considera la equivalencia regular como característica fundamental y por último se propone un algoritmo de agrupación PaC, por sus siglas en inglés Paradigmatic Clustering, el cual incorpora la uJaccard y la propiedad paradigmática. Se ha realizado evaluaciones extensivas con datos pequeños, reales, sintéticos y se ha procesado 3 grandes corpus. Se ha demostrado que PaC es un algoritmo que sobre pasa los resultados de algoritmos de agrupación del estado del arte. Más aun PaC es un algoritmo capas de ser ejecutado de forma paralela, distribuida, incremental y en flujo, características que se necesitan para el procedimiento de grandes cantidades de datos y de constante generación de datosapplication/pdfhttp://hdl.handle.net/20.500.12773/12278spaUniversidad Nacional de San Agustín de ArequipaPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/4.0/Universidad Nacional de San Agustín de ArequipaRepositorio Institucional - UNSAreponame:UNSA-Institucionalinstname:Universidad Nacional de San Agustíninstacron:UNSAClusteringparadigmatic similarityasymmetric similaritysimilarity coefficienthttps://purl.org/pe-repo/ocde/ford#1.02.01Método de agrupamiento no supervisado para el procesamiento del lenguaje natural utilizando medidas de similitud asimétricas y propiedades paradigmáticasinfo:eu-repo/semantics/doctoralThesisSUNEDU29694064https://orcid.org/0000-0003-2204-737129352446611028Alfaro Casas, Luis AlbertoTejada Carcamo, Javier LeandroQuispe Cruz, Marcelahttp://purl.org/pe-repo/renati/level#doctorhttp://purl.org/pe-repo/renati/type#tesisDoctorado en Ciencias de la ComputaciónUniversidad Nacional de San Agustín de Arequipa.Unidad de Posgrado.Facultad de Ingeniería de Producción y ServiciosDoctor en Ciencias de la ComputaciónLICENSElicense.txtlicense.txttext/plain; charset=utf-81327https://repositorio.unsa.edu.pe/bitstreams/00b63ab6-f371-4dcb-85b9-f67f673795a4/downloadc52066b9c50a8f86be96c82978636682MD52ORIGINALUPsapajo.pdfUPsapajo.pdfapplication/pdf8035871https://repositorio.unsa.edu.pe/bitstreams/9acaf2e6-d5f8-42f7-8561-a909d34f8189/downloadcec907422e61fee7e43cb2e8283d8544MD53TEXTUPsapajo.pdf.txtUPsapajo.pdf.txtExtracted texttext/plain379240https://repositorio.unsa.edu.pe/bitstreams/b2ea116c-b8e5-4163-8a0c-cf77ea831bc6/download9e478da9e957da1a68578e8ff61c73a3MD5420.500.12773/12278oai:repositorio.unsa.edu.pe:20.500.12773/122782022-05-29 11:32:49.355http://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccesshttps://repositorio.unsa.edu.peRepositorio Institucional UNSArepositorio@unsa.edu.pe77u/TGljZW5jaWEgZGUgVXNvCiAKRWwgUmVwb3NpdG9yaW8gSW5zdGl0dWNpb25hbCwgZGlmdW5kZSBtZWRpYW50ZSBsb3MgdHJhYmFqb3MgZGUgaW52ZXN0aWdhY2nDs24gcHJvZHVjaWRvcyBwb3IgbG9zIG1pZW1icm9zIGRlIGxhIHVuaXZlcnNpZGFkLiBFbCBjb250ZW5pZG8gZGUgbG9zIGRvY3VtZW50b3MgZGlnaXRhbGVzIGVzIGRlIGFjY2VzbyBhYmllcnRvIHBhcmEgdG9kYSBwZXJzb25hIGludGVyZXNhZGEuCgpTZSBhY2VwdGEgbGEgZGlmdXNpw7NuIHDDumJsaWNhIGRlIGxhIG9icmEsIHN1IGNvcGlhIHkgZGlzdHJpYnVjacOzbi4gUGFyYSBlc3RvIGVzIG5lY2VzYXJpbyBxdWUgc2UgY3VtcGxhIGNvbiBsYXMgc2lndWllbnRlcyBjb25kaWNpb25lczoKCkVsIG5lY2VzYXJpbyByZWNvbm9jaW1pZW50byBkZSBsYSBhdXRvcsOtYSBkZSBsYSBvYnJhLCBpZGVudGlmaWNhbmRvIG9wb3J0dW5hIHkgY29ycmVjdGFtZW50ZSBhIGxhIHBlcnNvbmEgcXVlIHBvc2VhIGxvcyBkZXJlY2hvcyBkZSBhdXRvci4KCk5vIGVzdMOhIHBlcm1pdGlkbyBlbCB1c28gaW5kZWJpZG8gZGVsIHRyYWJham8gZGUgaW52ZXN0aWdhY2nDs24gY29uIGZpbmVzIGRlIGx1Y3JvIG8gY3VhbHF1aWVyIHRpcG8gZGUgYWN0aXZpZGFkIHF1ZSBwcm9kdXpjYSBnYW5hbmNpYXMgYSBsYXMgcGVyc29uYXMgcXVlIGxvIGRpZnVuZGVuIHNpbiBlbCBjb25zZW50aW1pZW50byBkZWwgYXV0b3IgKGF1dG9yIGxlZ2FsKS4KCkxvcyBkZXJlY2hvcyBtb3JhbGVzIGRlbCBhdXRvciBubyBzb24gYWZlY3RhZG9zIHBvciBsYSBwcmVzZW50ZSBsaWNlbmNpYSBkZSB1c28uCgpEZXJlY2hvcyBkZSBhdXRvcgoKTGEgdW5pdmVyc2lkYWQgbm8gcG9zZWUgbG9zIGRlcmVjaG9zIGRlIHByb3BpZWRhZCBpbnRlbGVjdHVhbC4gTG9zIGRlcmVjaG9zIGRlIGF1dG9yIHNlIGVuY3VlbnRyYW4gcHJvdGVnaWRvcyBwb3IgbGEgbGVnaXNsYWNpw7NuIHBlcnVhbmE6IExleSBzb2JyZSBlbCBEZXJlY2hvIGRlIEF1dG9yIHByb211bGdhZG8gZW4gMTk5NiAoRC5MLiBOwrA4MjIpLCBMZXkgcXVlIG1vZGlmaWNhIGxvcyBhcnTDrWN1bG9zIDE4OMKwIHkgMTg5wrAgZGVsIGRlY3JldG8gbGVnaXNsYXRpdm8gTsKwODIyLCBMZXkgc29icmUgZGVyZWNob3MgZGUgYXV0b3IgcHJvbXVsZ2FkbyBlbiAyMDA1IChMZXkgTsKwMjg1MTcpLCBEZWNyZXRvIExlZ2lzbGF0aXZvIHF1ZSBhcHJ1ZWJhIGxhIG1vZGlmaWNhY2nDs24gZGVsIERlY3JldG8gTGVnaXNsYXRpdm8gTsKwODIyLCBMZXkgc29icmUgZWwgRGVyZWNobyBkZSBBdXRvciBwcm9tdWxnYWRvIGVuIDIwMDggKEQuTC4gTsKwMTA3NikuCg==
score 13.919782
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).