Transformer based model for coherence evaluation of scientific abstracts: Second Fine -Tuned Bert
Descripción del Articulo
La evaluación de la coherencia es un problema relacionado al área del procesamiento del lenguaje natural, cuya complejidad radica principalmente en el análisis de la semántica y contexto de las palabras del texto. Afortunadamente, la arquitectura Bidirectional Encoder Representation from Transformer...
| Autor: | |
|---|---|
| Formato: | tesis de grado |
| Fecha de Publicación: | 2023 |
| Institución: | Universidad Nacional de San Agustín |
| Repositorio: | UNSA-Institucional |
| Lenguaje: | español |
| OAI Identifier: | oai:repositorio.unsa.edu.pe:20.500.12773/16781 |
| Enlace del recurso: | https://hdl.handle.net/20.500.12773/16781 |
| Nivel de acceso: | acceso abierto |
| Materia: | Evaluación de la coherencia Detección de oraciones inconsistentes BERT Segundo ajuste fino https://purl.org/pe-repo/ocde/ford#2.11.02 |
| id |
UNSA_e1d227c68c9dda72198c5b0a7c54e758 |
|---|---|
| oai_identifier_str |
oai:repositorio.unsa.edu.pe:20.500.12773/16781 |
| network_acronym_str |
UNSA |
| network_name_str |
UNSA-Institucional |
| repository_id_str |
4847 |
| dc.title.none.fl_str_mv |
Transformer based model for coherence evaluation of scientific abstracts: Second Fine -Tuned Bert |
| title |
Transformer based model for coherence evaluation of scientific abstracts: Second Fine -Tuned Bert |
| spellingShingle |
Transformer based model for coherence evaluation of scientific abstracts: Second Fine -Tuned Bert Gutierrez Choque, Anyelo Carlos Evaluación de la coherencia Detección de oraciones inconsistentes BERT Segundo ajuste fino https://purl.org/pe-repo/ocde/ford#2.11.02 |
| title_short |
Transformer based model for coherence evaluation of scientific abstracts: Second Fine -Tuned Bert |
| title_full |
Transformer based model for coherence evaluation of scientific abstracts: Second Fine -Tuned Bert |
| title_fullStr |
Transformer based model for coherence evaluation of scientific abstracts: Second Fine -Tuned Bert |
| title_full_unstemmed |
Transformer based model for coherence evaluation of scientific abstracts: Second Fine -Tuned Bert |
| title_sort |
Transformer based model for coherence evaluation of scientific abstracts: Second Fine -Tuned Bert |
| author |
Gutierrez Choque, Anyelo Carlos |
| author_facet |
Gutierrez Choque, Anyelo Carlos |
| author_role |
author |
| dc.contributor.advisor.fl_str_mv |
Castro Gutierrez, Eveling Gloria |
| dc.contributor.author.fl_str_mv |
Gutierrez Choque, Anyelo Carlos |
| dc.subject.none.fl_str_mv |
Evaluación de la coherencia Detección de oraciones inconsistentes BERT Segundo ajuste fino |
| topic |
Evaluación de la coherencia Detección de oraciones inconsistentes BERT Segundo ajuste fino https://purl.org/pe-repo/ocde/ford#2.11.02 |
| dc.subject.ocde.none.fl_str_mv |
https://purl.org/pe-repo/ocde/ford#2.11.02 |
| description |
La evaluación de la coherencia es un problema relacionado al área del procesamiento del lenguaje natural, cuya complejidad radica principalmente en el análisis de la semántica y contexto de las palabras del texto. Afortunadamente, la arquitectura Bidirectional Encoder Representation from Transformers (BERT) puede capturar las variables antes mencionadas y representarlas como embeddings para realizar Fine-tunings. El presente estudio propone un modelo Second Fine-Tuned basado en BERT para detectar oraciones inconsistentes (evaluación de la coherencia) en abstracts científicos escritos en español/inglés. Para ello se han propuesto 2 métodos formales para la generación de abstracts incoherentes: Random Manipulation (RM) y K-means Random Manipulation (KRM). Se realizaron 6 experimentos; demostrando que realizar el Second Fine-Tuned mejora la detección de oraciones inconsistentes con un accuracy del 71%. Esto sucede incluso si los nuevos datos de reentrenamiento son de diferente idioma o de diferente dominio. También se demostró que utilizar varios métodos para la generación de abstracts incoherentes y mezclarlos al realizar Second FineTuned no ofrece mejores resultados que utilizar un único método. |
| publishDate |
2023 |
| dc.date.accessioned.none.fl_str_mv |
2023-11-29T15:40:22Z |
| dc.date.available.none.fl_str_mv |
2023-11-29T15:40:22Z |
| dc.date.issued.fl_str_mv |
2023 |
| dc.type.none.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
| format |
bachelorThesis |
| dc.identifier.uri.none.fl_str_mv |
https://hdl.handle.net/20.500.12773/16781 |
| url |
https://hdl.handle.net/20.500.12773/16781 |
| dc.language.iso.es_PE.fl_str_mv |
spa |
| language |
spa |
| dc.relation.ispartof.fl_str_mv |
SUNEDU |
| dc.rights.en_US.fl_str_mv |
info:eu-repo/semantics/openAccess |
| dc.rights.uri.en_US.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ |
| eu_rights_str_mv |
openAccess |
| rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.es_PE.fl_str_mv |
Universidad Nacional de San Agustín de Arequipa |
| dc.publisher.country.none.fl_str_mv |
PE |
| dc.source.es_PE.fl_str_mv |
Universidad Nacional de San Agustín de Arequipa Repositorio Institucional - UNSA |
| dc.source.none.fl_str_mv |
reponame:UNSA-Institucional instname:Universidad Nacional de San Agustín instacron:UNSA |
| instname_str |
Universidad Nacional de San Agustín |
| instacron_str |
UNSA |
| institution |
UNSA |
| reponame_str |
UNSA-Institucional |
| collection |
UNSA-Institucional |
| bitstream.url.fl_str_mv |
https://repositorio.unsa.edu.pe/bitstreams/ccd68a80-9f36-4376-a0f1-39d6f5ba1950/download https://repositorio.unsa.edu.pe/bitstreams/84ef311b-689c-45bf-b1d2-e4151de8423f/download https://repositorio.unsa.edu.pe/bitstreams/ec221460-b100-4e73-8652-e248aad96e8c/download https://repositorio.unsa.edu.pe/bitstreams/e85d3c2a-e351-4753-9d28-2511b3d2888f/download https://repositorio.unsa.edu.pe/bitstreams/a8e7ad2d-03ac-4ae5-9758-1c70bd91644a/download |
| bitstream.checksum.fl_str_mv |
eaa4ac57f1dcfae112ab6dd5b8fb68c9 c7062b606bc4d5bbfec2868ea3a60285 0f8e84d70556ae888f98641658a61e29 559f3d00e56f2ead9775a2b34d2d5c6a 8a4605be74aa9ea9d79846c1fba20a33 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositorio Institucional UNSA |
| repository.mail.fl_str_mv |
repositorio@unsa.edu.pe |
| _version_ |
1828762944920354816 |
| spelling |
Castro Gutierrez, Eveling GloriaGutierrez Choque, Anyelo Carlos2023-11-29T15:40:22Z2023-11-29T15:40:22Z2023La evaluación de la coherencia es un problema relacionado al área del procesamiento del lenguaje natural, cuya complejidad radica principalmente en el análisis de la semántica y contexto de las palabras del texto. Afortunadamente, la arquitectura Bidirectional Encoder Representation from Transformers (BERT) puede capturar las variables antes mencionadas y representarlas como embeddings para realizar Fine-tunings. El presente estudio propone un modelo Second Fine-Tuned basado en BERT para detectar oraciones inconsistentes (evaluación de la coherencia) en abstracts científicos escritos en español/inglés. Para ello se han propuesto 2 métodos formales para la generación de abstracts incoherentes: Random Manipulation (RM) y K-means Random Manipulation (KRM). Se realizaron 6 experimentos; demostrando que realizar el Second Fine-Tuned mejora la detección de oraciones inconsistentes con un accuracy del 71%. Esto sucede incluso si los nuevos datos de reentrenamiento son de diferente idioma o de diferente dominio. También se demostró que utilizar varios métodos para la generación de abstracts incoherentes y mezclarlos al realizar Second FineTuned no ofrece mejores resultados que utilizar un único método.application/pdfhttps://hdl.handle.net/20.500.12773/16781spaUniversidad Nacional de San Agustín de ArequipaPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/4.0/Universidad Nacional de San Agustín de ArequipaRepositorio Institucional - UNSAreponame:UNSA-Institucionalinstname:Universidad Nacional de San Agustíninstacron:UNSAEvaluación de la coherenciaDetección de oraciones inconsistentesBERTSegundo ajuste finohttps://purl.org/pe-repo/ocde/ford#2.11.02Transformer based model for coherence evaluation of scientific abstracts: Second Fine -Tuned Bertinfo:eu-repo/semantics/bachelorThesisSUNEDU29695284https://orcid.org/0000-0002-0203-041X73777213612076Alfaro Casas, Luis AlbertoHinojosa Cardenas, EdwardCastro Gutierrez, Eveling Gloriahttp://purl.org/pe-repo/renati/level#tituloProfesionalhttp://purl.org/pe-repo/renati/type#tesisIngeniería de SistemasUniversidad Nacional de San Agustín de Arequipa.Facultad de Ingeniería de Producción y ServiciosIngeniero de SistemasTHUMBNAILPDF.jpgimage/jpeg42566https://repositorio.unsa.edu.pe/bitstreams/ccd68a80-9f36-4376-a0f1-39d6f5ba1950/downloadeaa4ac57f1dcfae112ab6dd5b8fb68c9MD55ORIGINALISguchac.pdfISguchac.pdfapplication/pdf2335925https://repositorio.unsa.edu.pe/bitstreams/84ef311b-689c-45bf-b1d2-e4151de8423f/downloadc7062b606bc4d5bbfec2868ea3a60285MD51Reporte de Similitud.pdfReporte de Similitud.pdfapplication/pdf512794https://repositorio.unsa.edu.pe/bitstreams/ec221460-b100-4e73-8652-e248aad96e8c/download0f8e84d70556ae888f98641658a61e29MD52Autorización de Publicación Digital.pdfAutorización de Publicación Digital.pdfapplication/pdf697861https://repositorio.unsa.edu.pe/bitstreams/e85d3c2a-e351-4753-9d28-2511b3d2888f/download559f3d00e56f2ead9775a2b34d2d5c6aMD53LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://repositorio.unsa.edu.pe/bitstreams/a8e7ad2d-03ac-4ae5-9758-1c70bd91644a/download8a4605be74aa9ea9d79846c1fba20a33MD5420.500.12773/16781oai:repositorio.unsa.edu.pe:20.500.12773/167812023-12-07 23:26:43.778http://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccesshttps://repositorio.unsa.edu.peRepositorio Institucional UNSArepositorio@unsa.edu.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |
| score |
13.955891 |
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).