Natural language processing and Bert for social network authorprofiling X

Descripción del Articulo

Today X has become one of the most important socialnetworks for expressing opinions and interests on the web.The large amount of data generated allows automatedsystems to profile users based on gender, nationality andthematic interests. There are difficulties in this process notonly because of the s...

Descripción completa

Detalles Bibliográficos
Autores: Petrlik Azabache, Ivan, Rodríguez Rodríguez, Ciro, Lezama Gonzales, Pedro, Torres-Talaverano, Luz, Vásquez Hurtado, Enma Graciela, Hinojosa Pedraza, Karina Inés
Formato: artículo
Fecha de Publicación:2025
Institución:Universidad de San Martín de Porres
Repositorio:Revistas - Universidad de San Martín de Porres
Lenguaje:español
OAI Identifier:oai:revistas.usmp.edu.pe:article/3222
Enlace del recurso:https://portalrevistas.aulavirtualusmp.pe/index.php/rc/article/view/3222
Nivel de acceso:acceso abierto
Materia:Natural language, Bert , Profiling , Social Network X
Lenguaje natural, Bert, Perfilado, Red Social X
id REVUSMP_b05ebb97817c6728a22d3ac3de575b3a
oai_identifier_str oai:revistas.usmp.edu.pe:article/3222
network_acronym_str REVUSMP
network_name_str Revistas - Universidad de San Martín de Porres
repository_id_str
spelling Natural language processing and Bert for social network authorprofiling XProcesamiento de lenguaje natural y Bert para el perfilado de autores en la red social XPetrlik Azabache, IvanRodríguez Rodríguez, CiroLezama Gonzales, PedroTorres-Talaverano, LuzVásquez Hurtado, Enma GracielaHinojosa Pedraza, Karina InésNatural language, Bert , Profiling , Social Network XLenguaje natural, Bert, Perfilado, Red Social XToday X has become one of the most important socialnetworks for expressing opinions and interests on the web.The large amount of data generated allows automatedsystems to profile users based on gender, nationality andthematic interests. There are difficulties in this process notonly because of the short content, but also because of theambiguity and the use of several languages.The goal of this proposal is to generate a deep learningmodel using BERT that is able to identify demographic andthematic attributes from tweets. Pre-trained models of theBERT and Multilingual BERT type will be used, applied on PAN Author Profiling Task (CLEF 2019) corpora in English and Spanish.The proposed work will deepen the analysis using supervised classification data for gender and nationality classification and topic extraction through unsupervised techniques, such as LDA and BERTopic. These options include preprocessing techniques, dimensional reduction (UMAP) and evaluation using metrics such as precision and accuracy.It is expected that the results of the analysis can demonstrate the applicability of BERT for automatic profiling in marketing, socio-political analysis and content personalization.En la actualidad X se ha convertido en una de las redes sociales más importantes para expresar opiniones e intereses en la red. La gran cantidad de datos generados permiteobtener sistemas automatizados para perfilar a los usuarios en función del género, nacionalidad e intereses temáticos.Hay dificultades en este proceso no solo por el contenido breve, sino también por la ambigüedad y el uso de varios idiomas.El objetivo de esta propuesta es el de generar un modelo de aprendizaje profundo utilizando BERT que sea capaz de identificar atributos demográficos y temáticos a partir de los tweets. Se usarán modelos preentrenados del tipo de BERT y Multilingual BERT, aplicados sobre corpus del PAN Author Profiling Task (CLEF 2019) en inglés y español.El trabajo propuesto profundizará en el análisis mediante datos de la clasificación supervisada para la clasificación de género y nacionalidad y la extracción de temas a través de técnicas no supervisadas, como LDA y BERTopic. Estas opciones incluyen técnicas de preprocesamiento, reducción dimensional (UMAP) y evaluación mediante métricas como la precisión y la exactitud.Es previsible que los resultados del análisis puedan demostrar la aplicabilidad de BERT para conseguir perfilados automáticos aplicados en el ámbito de marketing, de análisissociopolíticos y de personalización de contenidos.Universidad de San Martín de Porres2025-08-22info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdfhttps://portalrevistas.aulavirtualusmp.pe/index.php/rc/article/view/3222Campus; Vol. 30 No. 39 (2025): Campus XXXIXCampus; Vol. 30 Núm. 39 (2025): Campus XXXIXCampus; v. 30 n. 39 (2025): Campus XXXIX2523-18201812-6049reponame:Revistas - Universidad de San Martín de Porresinstname:Universidad de San Martín de Porresinstacron:USMPspahttps://portalrevistas.aulavirtualusmp.pe/index.php/rc/article/view/3222/4004Derechos de autor 2025 Ivan Petrlik Azabache, Ciro Rodríguez Rodríguez, Pedro Lezama Gonzales, Luz Torres-Talaverano, Enma Graciela Vásquez Hurtado, Karina Inés Hinojosa Pedrazahttps://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessoai:revistas.usmp.edu.pe:article/32222025-08-25T14:21:35Z
dc.title.none.fl_str_mv Natural language processing and Bert for social network authorprofiling X
Procesamiento de lenguaje natural y Bert para el perfilado de autores en la red social X
title Natural language processing and Bert for social network authorprofiling X
spellingShingle Natural language processing and Bert for social network authorprofiling X
Petrlik Azabache, Ivan
Natural language, Bert , Profiling , Social Network X
Lenguaje natural, Bert, Perfilado, Red Social X
title_short Natural language processing and Bert for social network authorprofiling X
title_full Natural language processing and Bert for social network authorprofiling X
title_fullStr Natural language processing and Bert for social network authorprofiling X
title_full_unstemmed Natural language processing and Bert for social network authorprofiling X
title_sort Natural language processing and Bert for social network authorprofiling X
dc.creator.none.fl_str_mv Petrlik Azabache, Ivan
Rodríguez Rodríguez, Ciro
Lezama Gonzales, Pedro
Torres-Talaverano, Luz
Vásquez Hurtado, Enma Graciela
Hinojosa Pedraza, Karina Inés
author Petrlik Azabache, Ivan
author_facet Petrlik Azabache, Ivan
Rodríguez Rodríguez, Ciro
Lezama Gonzales, Pedro
Torres-Talaverano, Luz
Vásquez Hurtado, Enma Graciela
Hinojosa Pedraza, Karina Inés
author_role author
author2 Rodríguez Rodríguez, Ciro
Lezama Gonzales, Pedro
Torres-Talaverano, Luz
Vásquez Hurtado, Enma Graciela
Hinojosa Pedraza, Karina Inés
author2_role author
author
author
author
author
dc.subject.none.fl_str_mv Natural language, Bert , Profiling , Social Network X
Lenguaje natural, Bert, Perfilado, Red Social X
topic Natural language, Bert , Profiling , Social Network X
Lenguaje natural, Bert, Perfilado, Red Social X
description Today X has become one of the most important socialnetworks for expressing opinions and interests on the web.The large amount of data generated allows automatedsystems to profile users based on gender, nationality andthematic interests. There are difficulties in this process notonly because of the short content, but also because of theambiguity and the use of several languages.The goal of this proposal is to generate a deep learningmodel using BERT that is able to identify demographic andthematic attributes from tweets. Pre-trained models of theBERT and Multilingual BERT type will be used, applied on PAN Author Profiling Task (CLEF 2019) corpora in English and Spanish.The proposed work will deepen the analysis using supervised classification data for gender and nationality classification and topic extraction through unsupervised techniques, such as LDA and BERTopic. These options include preprocessing techniques, dimensional reduction (UMAP) and evaluation using metrics such as precision and accuracy.It is expected that the results of the analysis can demonstrate the applicability of BERT for automatic profiling in marketing, socio-political analysis and content personalization.
publishDate 2025
dc.date.none.fl_str_mv 2025-08-22
dc.type.none.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
format article
status_str publishedVersion
dc.identifier.none.fl_str_mv https://portalrevistas.aulavirtualusmp.pe/index.php/rc/article/view/3222
url https://portalrevistas.aulavirtualusmp.pe/index.php/rc/article/view/3222
dc.language.none.fl_str_mv spa
language spa
dc.relation.none.fl_str_mv https://portalrevistas.aulavirtualusmp.pe/index.php/rc/article/view/3222/4004
dc.rights.none.fl_str_mv https://creativecommons.org/licenses/by/4.0
info:eu-repo/semantics/openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by/4.0
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de San Martín de Porres
publisher.none.fl_str_mv Universidad de San Martín de Porres
dc.source.none.fl_str_mv Campus; Vol. 30 No. 39 (2025): Campus XXXIX
Campus; Vol. 30 Núm. 39 (2025): Campus XXXIX
Campus; v. 30 n. 39 (2025): Campus XXXIX
2523-1820
1812-6049
reponame:Revistas - Universidad de San Martín de Porres
instname:Universidad de San Martín de Porres
instacron:USMP
instname_str Universidad de San Martín de Porres
instacron_str USMP
institution USMP
reponame_str Revistas - Universidad de San Martín de Porres
collection Revistas - Universidad de San Martín de Porres
repository.name.fl_str_mv
repository.mail.fl_str_mv
_version_ 1842459174553780224
score 13.448654
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).