Transformer based model for coherence evaluation of scientific abstracts: Second Fine -Tuned Bert
Descripción del Articulo
La evaluación de la coherencia es un problema relacionado al área del procesamiento del lenguaje natural, cuya complejidad radica principalmente en el análisis de la semántica y contexto de las palabras del texto. Afortunadamente, la arquitectura Bidirectional Encoder Representation from Transformer...
Autor: | |
---|---|
Formato: | tesis de grado |
Fecha de Publicación: | 2023 |
Institución: | Universidad Nacional de San Agustín |
Repositorio: | UNSA-Institucional |
Lenguaje: | español |
OAI Identifier: | oai:repositorio.unsa.edu.pe:20.500.12773/16781 |
Enlace del recurso: | https://hdl.handle.net/20.500.12773/16781 |
Nivel de acceso: | acceso abierto |
Materia: | Evaluación de la coherencia Detección de oraciones inconsistentes BERT Segundo ajuste fino https://purl.org/pe-repo/ocde/ford#2.11.02 |
Sumario: | La evaluación de la coherencia es un problema relacionado al área del procesamiento del lenguaje natural, cuya complejidad radica principalmente en el análisis de la semántica y contexto de las palabras del texto. Afortunadamente, la arquitectura Bidirectional Encoder Representation from Transformers (BERT) puede capturar las variables antes mencionadas y representarlas como embeddings para realizar Fine-tunings. El presente estudio propone un modelo Second Fine-Tuned basado en BERT para detectar oraciones inconsistentes (evaluación de la coherencia) en abstracts científicos escritos en español/inglés. Para ello se han propuesto 2 métodos formales para la generación de abstracts incoherentes: Random Manipulation (RM) y K-means Random Manipulation (KRM). Se realizaron 6 experimentos; demostrando que realizar el Second Fine-Tuned mejora la detección de oraciones inconsistentes con un accuracy del 71%. Esto sucede incluso si los nuevos datos de reentrenamiento son de diferente idioma o de diferente dominio. También se demostró que utilizar varios métodos para la generación de abstracts incoherentes y mezclarlos al realizar Second FineTuned no ofrece mejores resultados que utilizar un único método. |
---|
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).