Fine-Tuning de Modelos Monolingües BERT preentrenados para el análisis de sentimientos en contextos de jerga peruana

Descripción del Articulo

La innovación en el procesamiento del lenguaje natural (NLP) ha llevado a la creación de modelos como BERT, RoBERTa, GPT-4o, Llama 3 y Gemini. Sin embargo, la adaptación de estos modelos a dialectos específicos, especialmente en lenguas distintas del inglés, sigue siendo poco explorada, especialment...

Descripción completa

Detalles Bibliográficos
Autores: Calizaya Milla, Sergio Elvis, Santos Gonzales, Jair Samuel
Formato: tesis de maestría
Fecha de Publicación:2024
Institución:Universidad Peruana Unión
Repositorio:UPEU-Tesis
Lenguaje:español
OAI Identifier:oai:repositorio.upeu.edu.pe:20.500.12840/8017
Enlace del recurso:http://repositorio.upeu.edu.pe/handle/20.500.12840/8017
Nivel de acceso:acceso abierto
Materia:Fine-tuning
Análisis de sentimiento
Transformers
BERT
Español
Jergas
http://purl.org/pe-repo/ocde/ford#1.02.01
id UEPU_b5dbd4c11d594814da8050a3c7452c86
oai_identifier_str oai:repositorio.upeu.edu.pe:20.500.12840/8017
network_acronym_str UEPU
network_name_str UPEU-Tesis
repository_id_str 4840
dc.title.none.fl_str_mv Fine-Tuning de Modelos Monolingües BERT preentrenados para el análisis de sentimientos en contextos de jerga peruana
title Fine-Tuning de Modelos Monolingües BERT preentrenados para el análisis de sentimientos en contextos de jerga peruana
spellingShingle Fine-Tuning de Modelos Monolingües BERT preentrenados para el análisis de sentimientos en contextos de jerga peruana
Calizaya Milla, Sergio Elvis
Fine-tuning
Análisis de sentimiento
Transformers
BERT
Español
Jergas
http://purl.org/pe-repo/ocde/ford#1.02.01
title_short Fine-Tuning de Modelos Monolingües BERT preentrenados para el análisis de sentimientos en contextos de jerga peruana
title_full Fine-Tuning de Modelos Monolingües BERT preentrenados para el análisis de sentimientos en contextos de jerga peruana
title_fullStr Fine-Tuning de Modelos Monolingües BERT preentrenados para el análisis de sentimientos en contextos de jerga peruana
title_full_unstemmed Fine-Tuning de Modelos Monolingües BERT preentrenados para el análisis de sentimientos en contextos de jerga peruana
title_sort Fine-Tuning de Modelos Monolingües BERT preentrenados para el análisis de sentimientos en contextos de jerga peruana
author Calizaya Milla, Sergio Elvis
author_facet Calizaya Milla, Sergio Elvis
Santos Gonzales, Jair Samuel
author_role author
author2 Santos Gonzales, Jair Samuel
author2_role author
dc.contributor.advisor.fl_str_mv Huanca Torres, Fredy Abel
dc.contributor.author.fl_str_mv Calizaya Milla, Sergio Elvis
Santos Gonzales, Jair Samuel
dc.subject.none.fl_str_mv Fine-tuning
Análisis de sentimiento
Transformers
BERT
Español
Jergas
topic Fine-tuning
Análisis de sentimiento
Transformers
BERT
Español
Jergas
http://purl.org/pe-repo/ocde/ford#1.02.01
dc.subject.ocde.none.fl_str_mv http://purl.org/pe-repo/ocde/ford#1.02.01
description La innovación en el procesamiento del lenguaje natural (NLP) ha llevado a la creación de modelos como BERT, RoBERTa, GPT-4o, Llama 3 y Gemini. Sin embargo, la adaptación de estos modelos a dialectos específicos, especialmente en lenguas distintas del inglés, sigue siendo poco explorada, especialmente con jergas o lenguaje informal. En respuesta a esta necesidad, nuestra investigación evalúa modelos monolingües al español que mejor se adapten a las expresiones coloquiales peruanas, siendo la mejor alternativa RoBERTuito, un modelo pre-entrenado en un extenso corpus de tweets en español que destaca su eficacia en tareas de clasificación de texto. Afinamos y comparamos este modelo para reflejar las características del español peruano. Implementamos un proceso de recolección y preprocesamiento de datos de Facebook, enfocándonos en comentarios en español peruano. Este dataset especializado con más de 11,000 comentarios etiquetados fueron usados para entrenar modelos monolingües en la tarea de análisis de sentimientos y obtener una detección más precisa de la polaridad en textos que incluyen jergas peruanas. RoBERTuito obtuvo un F1-score equilibrado de 0.750, con una precisión de 0.858, un recall de 0.870 y una exactitud de 0.789. En comparación, BETO alcanzó una precisión de 0.794, recall de 0.725 y exactitud de 0.669; BERTuit, una precisión de 0.751, recall de 0.869 y exactitud de 0.722; y RoBERTa-BNE, una precisión de 0.783, recall de 0.759 y exactitud de 0.750. Este estudio no solo proporciona una solución para el análisis de sentimientos en español peruano, sino que también establece una base para adaptar modelos monolingües a contextos lingüísticos específicos.
publishDate 2024
dc.date.accessioned.none.fl_str_mv 2024-10-18T17:23:38Z
dc.date.available.none.fl_str_mv 2024-10-18T17:23:38Z
dc.date.issued.fl_str_mv 2024-09-30
dc.type.none.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
dc.identifier.uri.none.fl_str_mv http://repositorio.upeu.edu.pe/handle/20.500.12840/8017
url http://repositorio.upeu.edu.pe/handle/20.500.12840/8017
dc.language.iso.none.fl_str_mv spa
language spa
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.none.fl_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/4.0/
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad Peruana Unión
dc.publisher.country.none.fl_str_mv PE
publisher.none.fl_str_mv Universidad Peruana Unión
dc.source.none.fl_str_mv reponame:UPEU-Tesis
instname:Universidad Peruana Unión
instacron:UPEU
instname_str Universidad Peruana Unión
instacron_str UPEU
institution UPEU
reponame_str UPEU-Tesis
collection UPEU-Tesis
bitstream.url.fl_str_mv https://repositorio.upeu.edu.pe/bitstreams/6d851e1b-a54f-47f8-82db-b3d5d0ef74d2/download
https://repositorio.upeu.edu.pe/bitstreams/0d375615-ba65-4e0a-a6de-21813bda9c0e/download
https://repositorio.upeu.edu.pe/bitstreams/2cbb2fcc-d6c9-46ed-91bf-429446533c90/download
https://repositorio.upeu.edu.pe/bitstreams/935ba1fa-856e-4331-958b-b207fa6dfeeb/download
bitstream.checksum.fl_str_mv eb475239849a4e315e57624fdc8b3cc3
265c85beec1fdef096941bcd63a9c4aa
e9c6c4efe9614e31d9b7f4ba1ef5790a
bb9bdc0b3349e4284e09149f943790b4
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv DSpace 7
repository.mail.fl_str_mv repositorio-help@upeu.edu.pe
_version_ 1835737934948466688
spelling Huanca Torres, Fredy AbelCalizaya Milla, Sergio ElvisSantos Gonzales, Jair Samuel2024-10-18T17:23:38Z2024-10-18T17:23:38Z2024-09-30http://repositorio.upeu.edu.pe/handle/20.500.12840/8017La innovación en el procesamiento del lenguaje natural (NLP) ha llevado a la creación de modelos como BERT, RoBERTa, GPT-4o, Llama 3 y Gemini. Sin embargo, la adaptación de estos modelos a dialectos específicos, especialmente en lenguas distintas del inglés, sigue siendo poco explorada, especialmente con jergas o lenguaje informal. En respuesta a esta necesidad, nuestra investigación evalúa modelos monolingües al español que mejor se adapten a las expresiones coloquiales peruanas, siendo la mejor alternativa RoBERTuito, un modelo pre-entrenado en un extenso corpus de tweets en español que destaca su eficacia en tareas de clasificación de texto. Afinamos y comparamos este modelo para reflejar las características del español peruano. Implementamos un proceso de recolección y preprocesamiento de datos de Facebook, enfocándonos en comentarios en español peruano. Este dataset especializado con más de 11,000 comentarios etiquetados fueron usados para entrenar modelos monolingües en la tarea de análisis de sentimientos y obtener una detección más precisa de la polaridad en textos que incluyen jergas peruanas. RoBERTuito obtuvo un F1-score equilibrado de 0.750, con una precisión de 0.858, un recall de 0.870 y una exactitud de 0.789. En comparación, BETO alcanzó una precisión de 0.794, recall de 0.725 y exactitud de 0.669; BERTuit, una precisión de 0.751, recall de 0.869 y exactitud de 0.722; y RoBERTa-BNE, una precisión de 0.783, recall de 0.759 y exactitud de 0.750. Este estudio no solo proporciona una solución para el análisis de sentimientos en español peruano, sino que también establece una base para adaptar modelos monolingües a contextos lingüísticos específicos.LimaEscuela de PosgradoInteligencia artificialapplication/pdfspaUniversidad Peruana UniónPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/4.0/Fine-tuningAnálisis de sentimientoTransformersBERTEspañolJergashttp://purl.org/pe-repo/ocde/ford#1.02.01Fine-Tuning de Modelos Monolingües BERT preentrenados para el análisis de sentimientos en contextos de jerga peruanainfo:eu-repo/semantics/masterThesisreponame:UPEU-Tesisinstname:Universidad Peruana Unióninstacron:UPEUSUNEDUMaestría en Ingeniería de Sistemas con Mención en Dirección y Gestión en Tecnología de InformaciónUniversidad Peruana Unión. Unidad de Posgrado de Ingeniería y ArquitecturaMaestro en Ingeniería de Sistemas con Mención en Dirección y Gestión en Tecnología de Información01345134https://orcid.org/0000-0001-7645-71444644551376521399612467López Gonzales, Javier LinkolkSaboya Ríos, NemiasSoria Quijaite, Juan JesúsHuanca López, Lizeth GeaninaHuanca Torres, Fredy Abelhttp://purl.org/pe-repo/renati/nivel#maestrohttp://purl.org/pe-repo/renati/type#tesisORIGINALReporte de similitud.pdfReporte de similitud.pdfapplication/pdf1762308https://repositorio.upeu.edu.pe/bitstreams/6d851e1b-a54f-47f8-82db-b3d5d0ef74d2/downloadeb475239849a4e315e57624fdc8b3cc3MD53Sergio_Tesis_Maestro_2024.pdfapplication/pdf4660324https://repositorio.upeu.edu.pe/bitstreams/0d375615-ba65-4e0a-a6de-21813bda9c0e/download265c85beec1fdef096941bcd63a9c4aaMD55Autorización.pdfAutorización.pdfapplication/pdf276243https://repositorio.upeu.edu.pe/bitstreams/2cbb2fcc-d6c9-46ed-91bf-429446533c90/downloade9c6c4efe9614e31d9b7f4ba1ef5790aMD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://repositorio.upeu.edu.pe/bitstreams/935ba1fa-856e-4331-958b-b207fa6dfeeb/downloadbb9bdc0b3349e4284e09149f943790b4MD5420.500.12840/8017oai:repositorio.upeu.edu.pe:20.500.12840/80172024-11-26 18:30:06.478http://creativecommons.org/licenses/by-nc-sa/4.0/info:eu-repo/semantics/openAccessopen.accesshttps://repositorio.upeu.edu.peDSpace 7repositorio-help@upeu.edu.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0IG93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLCB0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZyB0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sIGluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlIHN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yIHB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZSB0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQgdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uIGFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LCB5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZSBjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdCBzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkIHdpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRCBCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUgRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSCBDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZSBzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMgbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=
score 13.889614
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).