Algoritmo TF-IDF y PageRank para la generación automática de resumen de textos en español
Descripción del Articulo
Esta investigación abordo´ el resumen automático de texto extractivo para artículos de noticias en español. Ante el crecimiento exponencial de usuarios de Internet, la sobre- carga de información en línea y la migración del aprendizaje y el acceso al conocimiento desde los libros hacia la nube, surg...
| Autor: | |
|---|---|
| Formato: | tesis de maestría |
| Fecha de Publicación: | 2026 |
| Institución: | Universidad Nacional de San Agustín |
| Repositorio: | UNSA-Institucional |
| Lenguaje: | español |
| OAI Identifier: | oai:repositorio.unsa.edu.pe:20.500.12773/22438 |
| Enlace del recurso: | https://hdl.handle.net/20.500.12773/22438 |
| Nivel de acceso: | acceso abierto |
| Materia: | TF-IDF Pagerank Resumen automático NLP https://purl.org/pe-repo/ocde/ford#1.02.01 |
| Sumario: | Esta investigación abordo´ el resumen automático de texto extractivo para artículos de noticias en español. Ante el crecimiento exponencial de usuarios de Internet, la sobre- carga de información en línea y la migración del aprendizaje y el acceso al conocimiento desde los libros hacia la nube, surgió la necesidad de desarrollar herramientas automatizadas que procesen estos volúmenes de datos, condensando y resaltando los fragmentos más importantes para facilitar su acceso y comprensión. El problema principal fue la dificultad de procesar y resumir textos específicamente en español, dado que la mayoría de las investigaciones y herramientas existentes se orientan al idioma inglés. Para enfrentar este desafío, se propuso una combinación de dos algoritmos: TF-IDF y PageRank. Se construyo´ una base de datos con artículos de noticias extraídos del dataset ML SUM, se recopilaron resúmenes elaborados por personas mediante una aplicación web diseñada para este fin y, finalmente, se evalúo la calidad de los resúmenes generados por los algoritmos en comparación con los realizados por humanos. La investigación se limitó a la generación de resúmenes extractivos (selección de fragmentos del texto original) para textos en español. La elección de este idioma se debe a su importancia y a la relativa escasez de recursos en el ámbito del Procesamiento del Lenguaje Natural (PLN). Con este trabajo se pretende contribuir al campo del PLN, ofreciendo una solución automatizada que facilite el acceso y el tratamiento eficiente de textos en español. |
|---|
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).