Modelo de extracción automática de glosario de términos utilizando técnicas de procesamiento de lenguaje natural y Clustering
Descripción del Articulo
En el presente trabajo de investigación intitulada: “MODELO DE EXTRACCIÓN AUTOMÁTICA DE GLOSARIO DE TÉRMINOS UTILIZANDO TÉCNICAS DE PROCESAMIENTO DE LENGUAJE NATURAL Y CLUSTERING”, para abordar la complejidad y esfuerzo manual que representa la extracción de términos para glosarios a partir de requi...
| Autor: | |
|---|---|
| Formato: | tesis de maestría |
| Fecha de Publicación: | 2024 |
| Institución: | Universidad Nacional de San Antonio Abad del Cusco |
| Repositorio: | UNSAAC-Institucional |
| Lenguaje: | español |
| OAI Identifier: | oai:repositorio.unsaac.edu.pe:20.500.12918/10014 |
| Enlace del recurso: | http://hdl.handle.net/20.500.12918/10014 |
| Nivel de acceso: | acceso embargado |
| Materia: | Glosario Lenguaje natural Software Clustering http://purl.org/pe-repo/ocde/ford#1.02.02 |
| id |
RUNS_6f5234cee71047d60132c9bf909ce825 |
|---|---|
| oai_identifier_str |
oai:repositorio.unsaac.edu.pe:20.500.12918/10014 |
| network_acronym_str |
RUNS |
| network_name_str |
UNSAAC-Institucional |
| repository_id_str |
4815 |
| spelling |
Vera Olivera, HarleyZuñiga Rojas, Gabriela2024-12-12T23:33:24Z2024-12-12T23:33:24Z2024253T20241266http://hdl.handle.net/20.500.12918/10014En el presente trabajo de investigación intitulada: “MODELO DE EXTRACCIÓN AUTOMÁTICA DE GLOSARIO DE TÉRMINOS UTILIZANDO TÉCNICAS DE PROCESAMIENTO DE LENGUAJE NATURAL Y CLUSTERING”, para abordar la complejidad y esfuerzo manual que representa la extracción de términos para glosarios a partir de requisitos funcionales en proyectos de desarrollo de software a gran escala, proponemos un enfoque automatizado para la extracción y agrupamiento de términos de glosario. El método combina técnicas de pre-procesamiento y heurísticas para la identificación de términos, junto con embeddings generados con FastText para medir similitudes semánticas. Para el agrupamiento se emplearon los algoritmos -means, Expectation Maximization (EM) y Clusterización Jerárquica. La técnica fue aplicada a un conjunto de 2966 requisitos obteniéndose 318 grupos semánticos, y su eficacia fue evaluada mediante la distancia de Wasserstein (Word Mover's Distance) de 0.0113, el cual comparando los resultados automáticos con agrupamientos manuales es menor. Los experimentos mostraron que el uso de FastText y EM logra una agrupación semántica efectiva y consistente, validando la aplicabilidad del enfoque en entornos reales de desarrollo de software.application/pdfspaUniversidad Nacional de San Antonio Abad del CuscoPEinfo:eu-repo/semantics/embargoedAccesshttp://creativecommons.org/licenses/by-nc-nd/4.0/GlosarioLenguaje naturalSoftwareClusteringhttp://purl.org/pe-repo/ocde/ford#1.02.02Modelo de extracción automática de glosario de términos utilizando técnicas de procesamiento de lenguaje natural y Clusteringinfo:eu-repo/semantics/masterThesisreponame:UNSAAC-Institucionalinstname:Universidad Nacional de San Antonio Abad del Cuscoinstacron:UNSAACSUNEDUMaestro en Ciencias mención InformáticaUniversidad Nacional de San Antonio Abad del Cusco. Escuela de PosgradoMaestría en Ciencias mención Informática45073823https://orcid.org/0000-0003-2011-879742541815http://purl.org/pe-repo/renati/type#tesishttp://purl.org/pe-repo/renati/nivel#maestro611027Enciso Rodas, LauroDueñas Jimenez, RayMedrano Valencia, Ivan CesarMontoya Cubas, Carlos FernandoORIGINAL253T20241266.pdfapplication/pdf2022950http://repositorio.unsaac.edu.pe/bitstream/20.500.12918/10014/1/253T20241266.pdf394323dcfb93a1c60df475b98c214582MD5120.500.12918/10014oai:repositorio.unsaac.edu.pe:20.500.12918/100142024-12-12 18:43:50.74DSpace de la UNSAACsoporte.repositorio@unsaac.edu.pe |
| dc.title.es_PE.fl_str_mv |
Modelo de extracción automática de glosario de términos utilizando técnicas de procesamiento de lenguaje natural y Clustering |
| title |
Modelo de extracción automática de glosario de términos utilizando técnicas de procesamiento de lenguaje natural y Clustering |
| spellingShingle |
Modelo de extracción automática de glosario de términos utilizando técnicas de procesamiento de lenguaje natural y Clustering Zuñiga Rojas, Gabriela Glosario Lenguaje natural Software Clustering http://purl.org/pe-repo/ocde/ford#1.02.02 |
| title_short |
Modelo de extracción automática de glosario de términos utilizando técnicas de procesamiento de lenguaje natural y Clustering |
| title_full |
Modelo de extracción automática de glosario de términos utilizando técnicas de procesamiento de lenguaje natural y Clustering |
| title_fullStr |
Modelo de extracción automática de glosario de términos utilizando técnicas de procesamiento de lenguaje natural y Clustering |
| title_full_unstemmed |
Modelo de extracción automática de glosario de términos utilizando técnicas de procesamiento de lenguaje natural y Clustering |
| title_sort |
Modelo de extracción automática de glosario de términos utilizando técnicas de procesamiento de lenguaje natural y Clustering |
| author |
Zuñiga Rojas, Gabriela |
| author_facet |
Zuñiga Rojas, Gabriela |
| author_role |
author |
| dc.contributor.advisor.fl_str_mv |
Vera Olivera, Harley |
| dc.contributor.author.fl_str_mv |
Zuñiga Rojas, Gabriela |
| dc.subject.es_PE.fl_str_mv |
Glosario Lenguaje natural Software Clustering |
| topic |
Glosario Lenguaje natural Software Clustering http://purl.org/pe-repo/ocde/ford#1.02.02 |
| dc.subject.ocde.none.fl_str_mv |
http://purl.org/pe-repo/ocde/ford#1.02.02 |
| description |
En el presente trabajo de investigación intitulada: “MODELO DE EXTRACCIÓN AUTOMÁTICA DE GLOSARIO DE TÉRMINOS UTILIZANDO TÉCNICAS DE PROCESAMIENTO DE LENGUAJE NATURAL Y CLUSTERING”, para abordar la complejidad y esfuerzo manual que representa la extracción de términos para glosarios a partir de requisitos funcionales en proyectos de desarrollo de software a gran escala, proponemos un enfoque automatizado para la extracción y agrupamiento de términos de glosario. El método combina técnicas de pre-procesamiento y heurísticas para la identificación de términos, junto con embeddings generados con FastText para medir similitudes semánticas. Para el agrupamiento se emplearon los algoritmos -means, Expectation Maximization (EM) y Clusterización Jerárquica. La técnica fue aplicada a un conjunto de 2966 requisitos obteniéndose 318 grupos semánticos, y su eficacia fue evaluada mediante la distancia de Wasserstein (Word Mover's Distance) de 0.0113, el cual comparando los resultados automáticos con agrupamientos manuales es menor. Los experimentos mostraron que el uso de FastText y EM logra una agrupación semántica efectiva y consistente, validando la aplicabilidad del enfoque en entornos reales de desarrollo de software. |
| publishDate |
2024 |
| dc.date.accessioned.none.fl_str_mv |
2024-12-12T23:33:24Z |
| dc.date.available.none.fl_str_mv |
2024-12-12T23:33:24Z |
| dc.date.issued.fl_str_mv |
2024 |
| dc.type.none.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| dc.identifier.other.none.fl_str_mv |
253T20241266 |
| dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/20.500.12918/10014 |
| identifier_str_mv |
253T20241266 |
| url |
http://hdl.handle.net/20.500.12918/10014 |
| dc.language.iso.es_PE.fl_str_mv |
spa |
| language |
spa |
| dc.relation.ispartof.fl_str_mv |
SUNEDU |
| dc.rights.en_US.fl_str_mv |
info:eu-repo/semantics/embargoedAccess |
| dc.rights.uri.*.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ |
| eu_rights_str_mv |
embargoedAccess |
| rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ |
| dc.format.en_US.fl_str_mv |
application/pdf |
| dc.publisher.es_PE.fl_str_mv |
Universidad Nacional de San Antonio Abad del Cusco |
| dc.publisher.country.none.fl_str_mv |
PE |
| dc.source.none.fl_str_mv |
reponame:UNSAAC-Institucional instname:Universidad Nacional de San Antonio Abad del Cusco instacron:UNSAAC |
| instname_str |
Universidad Nacional de San Antonio Abad del Cusco |
| instacron_str |
UNSAAC |
| institution |
UNSAAC |
| reponame_str |
UNSAAC-Institucional |
| collection |
UNSAAC-Institucional |
| bitstream.url.fl_str_mv |
http://repositorio.unsaac.edu.pe/bitstream/20.500.12918/10014/1/253T20241266.pdf |
| bitstream.checksum.fl_str_mv |
394323dcfb93a1c60df475b98c214582 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 |
| repository.name.fl_str_mv |
DSpace de la UNSAAC |
| repository.mail.fl_str_mv |
soporte.repositorio@unsaac.edu.pe |
| _version_ |
1818982330182664192 |
| score |
13.9573765 |
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).