Fine-Tuning de Modelos Monolingües BERT preentrenados para el análisis de sentimientos en contextos de jerga peruana
Descripción del Articulo
La innovación en el procesamiento del lenguaje natural (NLP) ha llevado a la creación de modelos como BERT, RoBERTa, GPT-4o, Llama 3 y Gemini. Sin embargo, la adaptación de estos modelos a dialectos específicos, especialmente en lenguas distintas del inglés, sigue siendo poco explorada, especialment...
Autores: | , |
---|---|
Formato: | tesis de maestría |
Fecha de Publicación: | 2024 |
Institución: | Universidad Peruana Unión |
Repositorio: | UPEU-Tesis |
Lenguaje: | español |
OAI Identifier: | oai:repositorio.upeu.edu.pe:20.500.12840/8017 |
Enlace del recurso: | http://repositorio.upeu.edu.pe/handle/20.500.12840/8017 |
Nivel de acceso: | acceso abierto |
Materia: | Fine-tuning Análisis de sentimiento Transformers BERT Español Jergas http://purl.org/pe-repo/ocde/ford#1.02.01 |
id |
UEPU_b5dbd4c11d594814da8050a3c7452c86 |
---|---|
oai_identifier_str |
oai:repositorio.upeu.edu.pe:20.500.12840/8017 |
network_acronym_str |
UEPU |
network_name_str |
UPEU-Tesis |
repository_id_str |
4840 |
dc.title.none.fl_str_mv |
Fine-Tuning de Modelos Monolingües BERT preentrenados para el análisis de sentimientos en contextos de jerga peruana |
title |
Fine-Tuning de Modelos Monolingües BERT preentrenados para el análisis de sentimientos en contextos de jerga peruana |
spellingShingle |
Fine-Tuning de Modelos Monolingües BERT preentrenados para el análisis de sentimientos en contextos de jerga peruana Calizaya Milla, Sergio Elvis Fine-tuning Análisis de sentimiento Transformers BERT Español Jergas http://purl.org/pe-repo/ocde/ford#1.02.01 |
title_short |
Fine-Tuning de Modelos Monolingües BERT preentrenados para el análisis de sentimientos en contextos de jerga peruana |
title_full |
Fine-Tuning de Modelos Monolingües BERT preentrenados para el análisis de sentimientos en contextos de jerga peruana |
title_fullStr |
Fine-Tuning de Modelos Monolingües BERT preentrenados para el análisis de sentimientos en contextos de jerga peruana |
title_full_unstemmed |
Fine-Tuning de Modelos Monolingües BERT preentrenados para el análisis de sentimientos en contextos de jerga peruana |
title_sort |
Fine-Tuning de Modelos Monolingües BERT preentrenados para el análisis de sentimientos en contextos de jerga peruana |
author |
Calizaya Milla, Sergio Elvis |
author_facet |
Calizaya Milla, Sergio Elvis Santos Gonzales, Jair Samuel |
author_role |
author |
author2 |
Santos Gonzales, Jair Samuel |
author2_role |
author |
dc.contributor.advisor.fl_str_mv |
Huanca Torres, Fredy Abel |
dc.contributor.author.fl_str_mv |
Calizaya Milla, Sergio Elvis Santos Gonzales, Jair Samuel |
dc.subject.none.fl_str_mv |
Fine-tuning Análisis de sentimiento Transformers BERT Español Jergas |
topic |
Fine-tuning Análisis de sentimiento Transformers BERT Español Jergas http://purl.org/pe-repo/ocde/ford#1.02.01 |
dc.subject.ocde.none.fl_str_mv |
http://purl.org/pe-repo/ocde/ford#1.02.01 |
description |
La innovación en el procesamiento del lenguaje natural (NLP) ha llevado a la creación de modelos como BERT, RoBERTa, GPT-4o, Llama 3 y Gemini. Sin embargo, la adaptación de estos modelos a dialectos específicos, especialmente en lenguas distintas del inglés, sigue siendo poco explorada, especialmente con jergas o lenguaje informal. En respuesta a esta necesidad, nuestra investigación evalúa modelos monolingües al español que mejor se adapten a las expresiones coloquiales peruanas, siendo la mejor alternativa RoBERTuito, un modelo pre-entrenado en un extenso corpus de tweets en español que destaca su eficacia en tareas de clasificación de texto. Afinamos y comparamos este modelo para reflejar las características del español peruano. Implementamos un proceso de recolección y preprocesamiento de datos de Facebook, enfocándonos en comentarios en español peruano. Este dataset especializado con más de 11,000 comentarios etiquetados fueron usados para entrenar modelos monolingües en la tarea de análisis de sentimientos y obtener una detección más precisa de la polaridad en textos que incluyen jergas peruanas. RoBERTuito obtuvo un F1-score equilibrado de 0.750, con una precisión de 0.858, un recall de 0.870 y una exactitud de 0.789. En comparación, BETO alcanzó una precisión de 0.794, recall de 0.725 y exactitud de 0.669; BERTuit, una precisión de 0.751, recall de 0.869 y exactitud de 0.722; y RoBERTa-BNE, una precisión de 0.783, recall de 0.759 y exactitud de 0.750. Este estudio no solo proporciona una solución para el análisis de sentimientos en español peruano, sino que también establece una base para adaptar modelos monolingües a contextos lingüísticos específicos. |
publishDate |
2024 |
dc.date.accessioned.none.fl_str_mv |
2024-10-18T17:23:38Z |
dc.date.available.none.fl_str_mv |
2024-10-18T17:23:38Z |
dc.date.issued.fl_str_mv |
2024-09-30 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
dc.identifier.uri.none.fl_str_mv |
http://repositorio.upeu.edu.pe/handle/20.500.12840/8017 |
url |
http://repositorio.upeu.edu.pe/handle/20.500.12840/8017 |
dc.language.iso.none.fl_str_mv |
spa |
language |
spa |
dc.relation.ispartof.fl_str_mv |
SUNEDU |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/openAccess |
dc.rights.uri.none.fl_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ |
eu_rights_str_mv |
openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/4.0/ |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidad Peruana Unión |
dc.publisher.country.none.fl_str_mv |
PE |
publisher.none.fl_str_mv |
Universidad Peruana Unión |
dc.source.none.fl_str_mv |
reponame:UPEU-Tesis instname:Universidad Peruana Unión instacron:UPEU |
instname_str |
Universidad Peruana Unión |
instacron_str |
UPEU |
institution |
UPEU |
reponame_str |
UPEU-Tesis |
collection |
UPEU-Tesis |
bitstream.url.fl_str_mv |
https://repositorio.upeu.edu.pe/bitstreams/6d851e1b-a54f-47f8-82db-b3d5d0ef74d2/download https://repositorio.upeu.edu.pe/bitstreams/0d375615-ba65-4e0a-a6de-21813bda9c0e/download https://repositorio.upeu.edu.pe/bitstreams/2cbb2fcc-d6c9-46ed-91bf-429446533c90/download https://repositorio.upeu.edu.pe/bitstreams/935ba1fa-856e-4331-958b-b207fa6dfeeb/download |
bitstream.checksum.fl_str_mv |
eb475239849a4e315e57624fdc8b3cc3 265c85beec1fdef096941bcd63a9c4aa e9c6c4efe9614e31d9b7f4ba1ef5790a bb9bdc0b3349e4284e09149f943790b4 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
DSpace 7 |
repository.mail.fl_str_mv |
repositorio-help@upeu.edu.pe |
_version_ |
1835737934948466688 |
spelling |
Huanca Torres, Fredy AbelCalizaya Milla, Sergio ElvisSantos Gonzales, Jair Samuel2024-10-18T17:23:38Z2024-10-18T17:23:38Z2024-09-30http://repositorio.upeu.edu.pe/handle/20.500.12840/8017La innovación en el procesamiento del lenguaje natural (NLP) ha llevado a la creación de modelos como BERT, RoBERTa, GPT-4o, Llama 3 y Gemini. Sin embargo, la adaptación de estos modelos a dialectos específicos, especialmente en lenguas distintas del inglés, sigue siendo poco explorada, especialmente con jergas o lenguaje informal. En respuesta a esta necesidad, nuestra investigación evalúa modelos monolingües al español que mejor se adapten a las expresiones coloquiales peruanas, siendo la mejor alternativa RoBERTuito, un modelo pre-entrenado en un extenso corpus de tweets en español que destaca su eficacia en tareas de clasificación de texto. Afinamos y comparamos este modelo para reflejar las características del español peruano. Implementamos un proceso de recolección y preprocesamiento de datos de Facebook, enfocándonos en comentarios en español peruano. Este dataset especializado con más de 11,000 comentarios etiquetados fueron usados para entrenar modelos monolingües en la tarea de análisis de sentimientos y obtener una detección más precisa de la polaridad en textos que incluyen jergas peruanas. RoBERTuito obtuvo un F1-score equilibrado de 0.750, con una precisión de 0.858, un recall de 0.870 y una exactitud de 0.789. En comparación, BETO alcanzó una precisión de 0.794, recall de 0.725 y exactitud de 0.669; BERTuit, una precisión de 0.751, recall de 0.869 y exactitud de 0.722; y RoBERTa-BNE, una precisión de 0.783, recall de 0.759 y exactitud de 0.750. Este estudio no solo proporciona una solución para el análisis de sentimientos en español peruano, sino que también establece una base para adaptar modelos monolingües a contextos lingüísticos específicos.LimaEscuela de PosgradoInteligencia artificialapplication/pdfspaUniversidad Peruana UniónPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Fine-tuningAnálisis de sentimientoTransformersBERTEspañolJergashttp://purl.org/pe-repo/ocde/ford#1.02.01Fine-Tuning de Modelos Monolingües BERT preentrenados para el análisis de sentimientos en contextos de jerga peruanainfo:eu-repo/semantics/masterThesisreponame:UPEU-Tesisinstname:Universidad Peruana Unióninstacron:UPEUSUNEDUMaestría en Ingeniería de Sistemas con Mención en Dirección y Gestión en Tecnología de InformaciónUniversidad Peruana Unión. Unidad de Posgrado de Ingeniería y ArquitecturaMaestro en Ingeniería de Sistemas con Mención en Dirección y Gestión en Tecnología de Información01345134https://orcid.org/0000-0001-7645-71444644551376521399612467López Gonzales, Javier LinkolkSaboya Ríos, NemiasSoria Quijaite, Juan JesúsHuanca López, Lizeth GeaninaHuanca Torres, Fredy Abelhttp://purl.org/pe-repo/renati/nivel#maestrohttp://purl.org/pe-repo/renati/type#tesisORIGINALReporte de similitud.pdfReporte de similitud.pdfapplication/pdf1762308https://repositorio.upeu.edu.pe/bitstreams/6d851e1b-a54f-47f8-82db-b3d5d0ef74d2/downloadeb475239849a4e315e57624fdc8b3cc3MD53Sergio_Tesis_Maestro_2024.pdfapplication/pdf4660324https://repositorio.upeu.edu.pe/bitstreams/0d375615-ba65-4e0a-a6de-21813bda9c0e/download265c85beec1fdef096941bcd63a9c4aaMD55Autorización.pdfAutorización.pdfapplication/pdf276243https://repositorio.upeu.edu.pe/bitstreams/2cbb2fcc-d6c9-46ed-91bf-429446533c90/downloade9c6c4efe9614e31d9b7f4ba1ef5790aMD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://repositorio.upeu.edu.pe/bitstreams/935ba1fa-856e-4331-958b-b207fa6dfeeb/downloadbb9bdc0b3349e4284e09149f943790b4MD5420.500.12840/8017oai:repositorio.upeu.edu.pe:20.500.12840/80172024-11-26 18:30:06.478http://creativecommons.org/licenses/by-nc-sa/4.0/info:eu-repo/semantics/openAccessopen.accesshttps://repositorio.upeu.edu.peDSpace 7repositorio-help@upeu.edu.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0IG93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLCB0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZyB0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sIGluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlIHN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yIHB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZSB0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQgdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uIGFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LCB5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZSBjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdCBzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkIHdpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRCBCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUgRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSCBDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZSBzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMgbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |
score |
13.889614 |
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).