Modelo de extracción automática de glosario de términos utilizando técnicas de procesamiento de lenguaje natural y Clustering

Descripción del Articulo

En el presente trabajo de investigación intitulada: “MODELO DE EXTRACCIÓN AUTOMÁTICA DE GLOSARIO DE TÉRMINOS UTILIZANDO TÉCNICAS DE PROCESAMIENTO DE LENGUAJE NATURAL Y CLUSTERING”, para abordar la complejidad y esfuerzo manual que representa la extracción de términos para glosarios a partir de requi...

Descripción completa

Detalles Bibliográficos
Autor: Zuñiga Rojas, Gabriela
Formato: tesis de maestría
Fecha de Publicación:2024
Institución:Universidad Nacional de San Antonio Abad del Cusco
Repositorio:UNSAAC-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.unsaac.edu.pe:20.500.12918/10014
Enlace del recurso:http://hdl.handle.net/20.500.12918/10014
Nivel de acceso:acceso embargado
Materia:Glosario
Lenguaje natural
Software
Clustering
http://purl.org/pe-repo/ocde/ford#1.02.02
id RUNS_6f5234cee71047d60132c9bf909ce825
oai_identifier_str oai:repositorio.unsaac.edu.pe:20.500.12918/10014
network_acronym_str RUNS
network_name_str UNSAAC-Institucional
repository_id_str 4815
spelling Vera Olivera, HarleyZuñiga Rojas, Gabriela2024-12-12T23:33:24Z2024-12-12T23:33:24Z2024253T20241266http://hdl.handle.net/20.500.12918/10014En el presente trabajo de investigación intitulada: “MODELO DE EXTRACCIÓN AUTOMÁTICA DE GLOSARIO DE TÉRMINOS UTILIZANDO TÉCNICAS DE PROCESAMIENTO DE LENGUAJE NATURAL Y CLUSTERING”, para abordar la complejidad y esfuerzo manual que representa la extracción de términos para glosarios a partir de requisitos funcionales en proyectos de desarrollo de software a gran escala, proponemos un enfoque automatizado para la extracción y agrupamiento de términos de glosario. El método combina técnicas de pre-procesamiento y heurísticas para la identificación de términos, junto con embeddings generados con FastText para medir similitudes semánticas. Para el agrupamiento se emplearon los algoritmos -means, Expectation Maximization (EM) y Clusterización Jerárquica. La técnica fue aplicada a un conjunto de 2966 requisitos obteniéndose 318 grupos semánticos, y su eficacia fue evaluada mediante la distancia de Wasserstein (Word Mover's Distance) de 0.0113, el cual comparando los resultados automáticos con agrupamientos manuales es menor. Los experimentos mostraron que el uso de FastText y EM logra una agrupación semántica efectiva y consistente, validando la aplicabilidad del enfoque en entornos reales de desarrollo de software.application/pdfspaUniversidad Nacional de San Antonio Abad del CuscoPEinfo:eu-repo/semantics/embargoedAccesshttp://creativecommons.org/licenses/by-nc-nd/4.0/GlosarioLenguaje naturalSoftwareClusteringhttp://purl.org/pe-repo/ocde/ford#1.02.02Modelo de extracción automática de glosario de términos utilizando técnicas de procesamiento de lenguaje natural y Clusteringinfo:eu-repo/semantics/masterThesisreponame:UNSAAC-Institucionalinstname:Universidad Nacional de San Antonio Abad del Cuscoinstacron:UNSAACSUNEDUMaestro en Ciencias mención InformáticaUniversidad Nacional de San Antonio Abad del Cusco. Escuela de PosgradoMaestría en Ciencias mención Informática45073823https://orcid.org/0000-0003-2011-879742541815http://purl.org/pe-repo/renati/type#tesishttp://purl.org/pe-repo/renati/nivel#maestro611027Enciso Rodas, LauroDueñas Jimenez, RayMedrano Valencia, Ivan CesarMontoya Cubas, Carlos FernandoORIGINAL253T20241266.pdfapplication/pdf2022950http://repositorio.unsaac.edu.pe/bitstream/20.500.12918/10014/1/253T20241266.pdf394323dcfb93a1c60df475b98c214582MD5120.500.12918/10014oai:repositorio.unsaac.edu.pe:20.500.12918/100142024-12-12 18:43:50.74DSpace de la UNSAACsoporte.repositorio@unsaac.edu.pe
dc.title.es_PE.fl_str_mv Modelo de extracción automática de glosario de términos utilizando técnicas de procesamiento de lenguaje natural y Clustering
title Modelo de extracción automática de glosario de términos utilizando técnicas de procesamiento de lenguaje natural y Clustering
spellingShingle Modelo de extracción automática de glosario de términos utilizando técnicas de procesamiento de lenguaje natural y Clustering
Zuñiga Rojas, Gabriela
Glosario
Lenguaje natural
Software
Clustering
http://purl.org/pe-repo/ocde/ford#1.02.02
title_short Modelo de extracción automática de glosario de términos utilizando técnicas de procesamiento de lenguaje natural y Clustering
title_full Modelo de extracción automática de glosario de términos utilizando técnicas de procesamiento de lenguaje natural y Clustering
title_fullStr Modelo de extracción automática de glosario de términos utilizando técnicas de procesamiento de lenguaje natural y Clustering
title_full_unstemmed Modelo de extracción automática de glosario de términos utilizando técnicas de procesamiento de lenguaje natural y Clustering
title_sort Modelo de extracción automática de glosario de términos utilizando técnicas de procesamiento de lenguaje natural y Clustering
author Zuñiga Rojas, Gabriela
author_facet Zuñiga Rojas, Gabriela
author_role author
dc.contributor.advisor.fl_str_mv Vera Olivera, Harley
dc.contributor.author.fl_str_mv Zuñiga Rojas, Gabriela
dc.subject.es_PE.fl_str_mv Glosario
Lenguaje natural
Software
Clustering
topic Glosario
Lenguaje natural
Software
Clustering
http://purl.org/pe-repo/ocde/ford#1.02.02
dc.subject.ocde.none.fl_str_mv http://purl.org/pe-repo/ocde/ford#1.02.02
description En el presente trabajo de investigación intitulada: “MODELO DE EXTRACCIÓN AUTOMÁTICA DE GLOSARIO DE TÉRMINOS UTILIZANDO TÉCNICAS DE PROCESAMIENTO DE LENGUAJE NATURAL Y CLUSTERING”, para abordar la complejidad y esfuerzo manual que representa la extracción de términos para glosarios a partir de requisitos funcionales en proyectos de desarrollo de software a gran escala, proponemos un enfoque automatizado para la extracción y agrupamiento de términos de glosario. El método combina técnicas de pre-procesamiento y heurísticas para la identificación de términos, junto con embeddings generados con FastText para medir similitudes semánticas. Para el agrupamiento se emplearon los algoritmos -means, Expectation Maximization (EM) y Clusterización Jerárquica. La técnica fue aplicada a un conjunto de 2966 requisitos obteniéndose 318 grupos semánticos, y su eficacia fue evaluada mediante la distancia de Wasserstein (Word Mover's Distance) de 0.0113, el cual comparando los resultados automáticos con agrupamientos manuales es menor. Los experimentos mostraron que el uso de FastText y EM logra una agrupación semántica efectiva y consistente, validando la aplicabilidad del enfoque en entornos reales de desarrollo de software.
publishDate 2024
dc.date.accessioned.none.fl_str_mv 2024-12-12T23:33:24Z
dc.date.available.none.fl_str_mv 2024-12-12T23:33:24Z
dc.date.issued.fl_str_mv 2024
dc.type.none.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
dc.identifier.other.none.fl_str_mv 253T20241266
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12918/10014
identifier_str_mv 253T20241266
url http://hdl.handle.net/20.500.12918/10014
dc.language.iso.es_PE.fl_str_mv spa
language spa
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.en_US.fl_str_mv info:eu-repo/semantics/embargoedAccess
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv embargoedAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.format.en_US.fl_str_mv application/pdf
dc.publisher.es_PE.fl_str_mv Universidad Nacional de San Antonio Abad del Cusco
dc.publisher.country.none.fl_str_mv PE
dc.source.none.fl_str_mv reponame:UNSAAC-Institucional
instname:Universidad Nacional de San Antonio Abad del Cusco
instacron:UNSAAC
instname_str Universidad Nacional de San Antonio Abad del Cusco
instacron_str UNSAAC
institution UNSAAC
reponame_str UNSAAC-Institucional
collection UNSAAC-Institucional
bitstream.url.fl_str_mv http://repositorio.unsaac.edu.pe/bitstream/20.500.12918/10014/1/253T20241266.pdf
bitstream.checksum.fl_str_mv 394323dcfb93a1c60df475b98c214582
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv DSpace de la UNSAAC
repository.mail.fl_str_mv soporte.repositorio@unsaac.edu.pe
_version_ 1818982330182664192
score 13.9573765
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).