Transformer based model for coherence evaluation of scientific abstracts: Second Fine -Tuned Bert

Descripción del Articulo

La evaluación de la coherencia es un problema relacionado al área del procesamiento del lenguaje natural, cuya complejidad radica principalmente en el análisis de la semántica y contexto de las palabras del texto. Afortunadamente, la arquitectura Bidirectional Encoder Representation from Transformer...

Descripción completa

Detalles Bibliográficos
Autor: Gutierrez Choque, Anyelo Carlos
Formato: tesis de grado
Fecha de Publicación:2023
Institución:Universidad Nacional de San Agustín
Repositorio:UNSA-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.unsa.edu.pe:20.500.12773/16781
Enlace del recurso:https://hdl.handle.net/20.500.12773/16781
Nivel de acceso:acceso abierto
Materia:Evaluación de la coherencia
Detección de oraciones inconsistentes
BERT
Segundo ajuste fino
https://purl.org/pe-repo/ocde/ford#2.11.02
id UNSA_e1d227c68c9dda72198c5b0a7c54e758
oai_identifier_str oai:repositorio.unsa.edu.pe:20.500.12773/16781
network_acronym_str UNSA
network_name_str UNSA-Institucional
repository_id_str 4847
dc.title.none.fl_str_mv Transformer based model for coherence evaluation of scientific abstracts: Second Fine -Tuned Bert
title Transformer based model for coherence evaluation of scientific abstracts: Second Fine -Tuned Bert
spellingShingle Transformer based model for coherence evaluation of scientific abstracts: Second Fine -Tuned Bert
Gutierrez Choque, Anyelo Carlos
Evaluación de la coherencia
Detección de oraciones inconsistentes
BERT
Segundo ajuste fino
https://purl.org/pe-repo/ocde/ford#2.11.02
title_short Transformer based model for coherence evaluation of scientific abstracts: Second Fine -Tuned Bert
title_full Transformer based model for coherence evaluation of scientific abstracts: Second Fine -Tuned Bert
title_fullStr Transformer based model for coherence evaluation of scientific abstracts: Second Fine -Tuned Bert
title_full_unstemmed Transformer based model for coherence evaluation of scientific abstracts: Second Fine -Tuned Bert
title_sort Transformer based model for coherence evaluation of scientific abstracts: Second Fine -Tuned Bert
author Gutierrez Choque, Anyelo Carlos
author_facet Gutierrez Choque, Anyelo Carlos
author_role author
dc.contributor.advisor.fl_str_mv Castro Gutierrez, Eveling Gloria
dc.contributor.author.fl_str_mv Gutierrez Choque, Anyelo Carlos
dc.subject.none.fl_str_mv Evaluación de la coherencia
Detección de oraciones inconsistentes
BERT
Segundo ajuste fino
topic Evaluación de la coherencia
Detección de oraciones inconsistentes
BERT
Segundo ajuste fino
https://purl.org/pe-repo/ocde/ford#2.11.02
dc.subject.ocde.none.fl_str_mv https://purl.org/pe-repo/ocde/ford#2.11.02
description La evaluación de la coherencia es un problema relacionado al área del procesamiento del lenguaje natural, cuya complejidad radica principalmente en el análisis de la semántica y contexto de las palabras del texto. Afortunadamente, la arquitectura Bidirectional Encoder Representation from Transformers (BERT) puede capturar las variables antes mencionadas y representarlas como embeddings para realizar Fine-tunings. El presente estudio propone un modelo Second Fine-Tuned basado en BERT para detectar oraciones inconsistentes (evaluación de la coherencia) en abstracts científicos escritos en español/inglés. Para ello se han propuesto 2 métodos formales para la generación de abstracts incoherentes: Random Manipulation (RM) y K-means Random Manipulation (KRM). Se realizaron 6 experimentos; demostrando que realizar el Second Fine-Tuned mejora la detección de oraciones inconsistentes con un accuracy del 71%. Esto sucede incluso si los nuevos datos de reentrenamiento son de diferente idioma o de diferente dominio. También se demostró que utilizar varios métodos para la generación de abstracts incoherentes y mezclarlos al realizar Second FineTuned no ofrece mejores resultados que utilizar un único método.
publishDate 2023
dc.date.accessioned.none.fl_str_mv 2023-11-29T15:40:22Z
dc.date.available.none.fl_str_mv 2023-11-29T15:40:22Z
dc.date.issued.fl_str_mv 2023
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
dc.identifier.uri.none.fl_str_mv https://hdl.handle.net/20.500.12773/16781
url https://hdl.handle.net/20.500.12773/16781
dc.language.iso.es_PE.fl_str_mv spa
language spa
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.en_US.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.en_US.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.format.none.fl_str_mv application/pdf
dc.publisher.es_PE.fl_str_mv Universidad Nacional de San Agustín de Arequipa
dc.publisher.country.none.fl_str_mv PE
dc.source.es_PE.fl_str_mv Universidad Nacional de San Agustín de Arequipa
Repositorio Institucional - UNSA
dc.source.none.fl_str_mv reponame:UNSA-Institucional
instname:Universidad Nacional de San Agustín
instacron:UNSA
instname_str Universidad Nacional de San Agustín
instacron_str UNSA
institution UNSA
reponame_str UNSA-Institucional
collection UNSA-Institucional
bitstream.url.fl_str_mv https://repositorio.unsa.edu.pe/bitstreams/ccd68a80-9f36-4376-a0f1-39d6f5ba1950/download
https://repositorio.unsa.edu.pe/bitstreams/84ef311b-689c-45bf-b1d2-e4151de8423f/download
https://repositorio.unsa.edu.pe/bitstreams/ec221460-b100-4e73-8652-e248aad96e8c/download
https://repositorio.unsa.edu.pe/bitstreams/e85d3c2a-e351-4753-9d28-2511b3d2888f/download
https://repositorio.unsa.edu.pe/bitstreams/a8e7ad2d-03ac-4ae5-9758-1c70bd91644a/download
bitstream.checksum.fl_str_mv eaa4ac57f1dcfae112ab6dd5b8fb68c9
c7062b606bc4d5bbfec2868ea3a60285
0f8e84d70556ae888f98641658a61e29
559f3d00e56f2ead9775a2b34d2d5c6a
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional UNSA
repository.mail.fl_str_mv repositorio@unsa.edu.pe
_version_ 1828762944920354816
spelling Castro Gutierrez, Eveling GloriaGutierrez Choque, Anyelo Carlos2023-11-29T15:40:22Z2023-11-29T15:40:22Z2023La evaluación de la coherencia es un problema relacionado al área del procesamiento del lenguaje natural, cuya complejidad radica principalmente en el análisis de la semántica y contexto de las palabras del texto. Afortunadamente, la arquitectura Bidirectional Encoder Representation from Transformers (BERT) puede capturar las variables antes mencionadas y representarlas como embeddings para realizar Fine-tunings. El presente estudio propone un modelo Second Fine-Tuned basado en BERT para detectar oraciones inconsistentes (evaluación de la coherencia) en abstracts científicos escritos en español/inglés. Para ello se han propuesto 2 métodos formales para la generación de abstracts incoherentes: Random Manipulation (RM) y K-means Random Manipulation (KRM). Se realizaron 6 experimentos; demostrando que realizar el Second Fine-Tuned mejora la detección de oraciones inconsistentes con un accuracy del 71%. Esto sucede incluso si los nuevos datos de reentrenamiento son de diferente idioma o de diferente dominio. También se demostró que utilizar varios métodos para la generación de abstracts incoherentes y mezclarlos al realizar Second FineTuned no ofrece mejores resultados que utilizar un único método.application/pdfhttps://hdl.handle.net/20.500.12773/16781spaUniversidad Nacional de San Agustín de ArequipaPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/4.0/Universidad Nacional de San Agustín de ArequipaRepositorio Institucional - UNSAreponame:UNSA-Institucionalinstname:Universidad Nacional de San Agustíninstacron:UNSAEvaluación de la coherenciaDetección de oraciones inconsistentesBERTSegundo ajuste finohttps://purl.org/pe-repo/ocde/ford#2.11.02Transformer based model for coherence evaluation of scientific abstracts: Second Fine -Tuned Bertinfo:eu-repo/semantics/bachelorThesisSUNEDU29695284https://orcid.org/0000-0002-0203-041X73777213612076Alfaro Casas, Luis AlbertoHinojosa Cardenas, EdwardCastro Gutierrez, Eveling Gloriahttp://purl.org/pe-repo/renati/level#tituloProfesionalhttp://purl.org/pe-repo/renati/type#tesisIngeniería de SistemasUniversidad Nacional de San Agustín de Arequipa.Facultad de Ingeniería de Producción y ServiciosIngeniero de SistemasTHUMBNAILPDF.jpgimage/jpeg42566https://repositorio.unsa.edu.pe/bitstreams/ccd68a80-9f36-4376-a0f1-39d6f5ba1950/downloadeaa4ac57f1dcfae112ab6dd5b8fb68c9MD55ORIGINALISguchac.pdfISguchac.pdfapplication/pdf2335925https://repositorio.unsa.edu.pe/bitstreams/84ef311b-689c-45bf-b1d2-e4151de8423f/downloadc7062b606bc4d5bbfec2868ea3a60285MD51Reporte de Similitud.pdfReporte de Similitud.pdfapplication/pdf512794https://repositorio.unsa.edu.pe/bitstreams/ec221460-b100-4e73-8652-e248aad96e8c/download0f8e84d70556ae888f98641658a61e29MD52Autorización de Publicación Digital.pdfAutorización de Publicación Digital.pdfapplication/pdf697861https://repositorio.unsa.edu.pe/bitstreams/e85d3c2a-e351-4753-9d28-2511b3d2888f/download559f3d00e56f2ead9775a2b34d2d5c6aMD53LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://repositorio.unsa.edu.pe/bitstreams/a8e7ad2d-03ac-4ae5-9758-1c70bd91644a/download8a4605be74aa9ea9d79846c1fba20a33MD5420.500.12773/16781oai:repositorio.unsa.edu.pe:20.500.12773/167812023-12-07 23:26:43.778http://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccesshttps://repositorio.unsa.edu.peRepositorio Institucional UNSArepositorio@unsa.edu.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=
score 13.955691
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).