Algoritmo TF-IDF y PageRank para la generación automática de resumen de textos en español

Descripción del Articulo

Esta investigación abordo´ el resumen automático de texto extractivo para artículos de noticias en español. Ante el crecimiento exponencial de usuarios de Internet, la sobre- carga de información en línea y la migración del aprendizaje y el acceso al conocimiento desde los libros hacia la nube, surg...

Descripción completa

Detalles Bibliográficos
Autor: Yauri Orihuela, Irwin Lizandro
Formato: tesis de maestría
Fecha de Publicación:2026
Institución:Universidad Nacional de San Agustín
Repositorio:UNSA-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.unsa.edu.pe:20.500.12773/22438
Enlace del recurso:https://hdl.handle.net/20.500.12773/22438
Nivel de acceso:acceso abierto
Materia:TF-IDF
Pagerank
Resumen automático
NLP
https://purl.org/pe-repo/ocde/ford#1.02.01
Descripción
Sumario:Esta investigación abordo´ el resumen automático de texto extractivo para artículos de noticias en español. Ante el crecimiento exponencial de usuarios de Internet, la sobre- carga de información en línea y la migración del aprendizaje y el acceso al conocimiento desde los libros hacia la nube, surgió la necesidad de desarrollar herramientas automatizadas que procesen estos volúmenes de datos, condensando y resaltando los fragmentos más importantes para facilitar su acceso y comprensión. El problema principal fue la dificultad de procesar y resumir textos específicamente en español, dado que la mayoría de las investigaciones y herramientas existentes se orientan al idioma inglés. Para enfrentar este desafío, se propuso una combinación de dos algoritmos: TF-IDF y PageRank. Se construyo´ una base de datos con artículos de noticias extraídos del dataset ML SUM, se recopilaron resúmenes elaborados por personas mediante una aplicación web diseñada para este fin y, finalmente, se evalúo la calidad de los resúmenes generados por los algoritmos en comparación con los realizados por humanos. La investigación se limitó a la generación de resúmenes extractivos (selección de fragmentos del texto original) para textos en español. La elección de este idioma se debe a su importancia y a la relativa escasez de recursos en el ámbito del Procesamiento del Lenguaje Natural (PLN). Con este trabajo se pretende contribuir al campo del PLN, ofreciendo una solución automatizada que facilite el acceso y el tratamiento eficiente de textos en español.
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).