Comparación de algoritmos de machine learning para clasificar opiniones de usuarios acerca de publicaciones hechas por bancos de Perú sobre phishing

Descripción del Articulo

A nivel mundial el phishing en los últimos años se ha incrementado y el Perú no fue una excepción. Debido a la pandemia del Covid-19 se registró un aumento considerable de este tipo de ciberataques llamado phishing; entre los motivos de su crecimiento se encuentra la cuarentena. Este tipo de ataques...

Descripción completa

Detalles Bibliográficos
Autor: Temoche Salinas, Adrian Alonso
Formato: tesis de grado
Fecha de Publicación:2024
Institución:Universidad de Lima
Repositorio:ULIMA-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.ulima.edu.pe:20.500.12724/21106
Enlace del recurso:https://hdl.handle.net/20.500.12724/21106
Nivel de acceso:acceso abierto
Materia:Aprenizaje automático
Algoritmos computacionales.
Machine learning
Computer algorithms
https://purl.org/pe-repo/ocde/ford#2.02.04
id RULI_d8542cce17879a1d0ddf52d70adca909
oai_identifier_str oai:repositorio.ulima.edu.pe:20.500.12724/21106
network_acronym_str RULI
network_name_str ULIMA-Institucional
repository_id_str 3883
dc.title.es_PE.fl_str_mv Comparación de algoritmos de machine learning para clasificar opiniones de usuarios acerca de publicaciones hechas por bancos de Perú sobre phishing
title Comparación de algoritmos de machine learning para clasificar opiniones de usuarios acerca de publicaciones hechas por bancos de Perú sobre phishing
spellingShingle Comparación de algoritmos de machine learning para clasificar opiniones de usuarios acerca de publicaciones hechas por bancos de Perú sobre phishing
Temoche Salinas, Adrian Alonso
Aprenizaje automático
Algoritmos computacionales.
Machine learning
Computer algorithms
https://purl.org/pe-repo/ocde/ford#2.02.04
title_short Comparación de algoritmos de machine learning para clasificar opiniones de usuarios acerca de publicaciones hechas por bancos de Perú sobre phishing
title_full Comparación de algoritmos de machine learning para clasificar opiniones de usuarios acerca de publicaciones hechas por bancos de Perú sobre phishing
title_fullStr Comparación de algoritmos de machine learning para clasificar opiniones de usuarios acerca de publicaciones hechas por bancos de Perú sobre phishing
title_full_unstemmed Comparación de algoritmos de machine learning para clasificar opiniones de usuarios acerca de publicaciones hechas por bancos de Perú sobre phishing
title_sort Comparación de algoritmos de machine learning para clasificar opiniones de usuarios acerca de publicaciones hechas por bancos de Perú sobre phishing
author Temoche Salinas, Adrian Alonso
author_facet Temoche Salinas, Adrian Alonso
author_role author
dc.contributor.advisor.fl_str_mv Ramos Ponce, Oscar Efraín
dc.contributor.author.fl_str_mv Temoche Salinas, Adrian Alonso
dc.subject.es_PE.fl_str_mv Aprenizaje automático
Algoritmos computacionales.
topic Aprenizaje automático
Algoritmos computacionales.
Machine learning
Computer algorithms
https://purl.org/pe-repo/ocde/ford#2.02.04
dc.subject.en_EN.fl_str_mv Machine learning
Computer algorithms
dc.subject.ocde.none.fl_str_mv https://purl.org/pe-repo/ocde/ford#2.02.04
description A nivel mundial el phishing en los últimos años se ha incrementado y el Perú no fue una excepción. Debido a la pandemia del Covid-19 se registró un aumento considerable de este tipo de ciberataques llamado phishing; entre los motivos de su crecimiento se encuentra la cuarentena. Este tipo de ataques suele afectar de manera negativa a los usuarios de internet y mucho más a las empresas, siendo uno de los ataques más frecuentes el phishing. Por ejemplo, en las noticias como en redes sociales se puede observar cómo los bancos o plataformas de pago advierten a sus usuarios sobre estos ataques para que estén atentos, al igual que se puede observar el malestar de los usuarios cuando publican o comentan en las redes sociales que han sido víctima de dichos ataques. Por este motivo, este trabajo busca identificar de manera correcta las opiniones de las personas acerca de publicaciones hechas por bancos de Perú sobre phishing, clasificando su opinión como positiva o negativa. Se utiliza procesamiento de lenguaje natural (PLN) y análisis de sentimiento para procesar el texto, con los algoritmos de Naive Bayes, Random Forest y Support Vector Machine (SVM) en el caso de machine learning y con el transformador BERT en el caso de deep learning, con el fin de conocer cuál de los cuatro algoritmos tiene mejores resultados. La metodología usada consiste en 5 pasos desde la búsqueda y creación del dataset, pasando por la etapa de preprocesamiento, entrenamiento, pruebas y finalizando en la evaluación de los resultados. De los cuatro algoritmos, BERT obtuvo el mejor resultado con una exactitud de 86.90% seguido de Naive Bayes que fue el que obtuvo un mejor resultado en la validación cruzada con 79.62% de exactitud y en la etapa de prueba con 86% de exactitud entre los tres algoritmos de machine learning. Además, los resultados obtenidos muestran que los tres algoritmos de machine learning tienen un desempeño similar
publishDate 2024
dc.date.accessioned.none.fl_str_mv 2024-08-26T12:42:41Z
dc.date.available.none.fl_str_mv 2024-08-26T12:42:41Z
dc.date.issued.fl_str_mv 2024
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.other.none.fl_str_mv Tesis
format bachelorThesis
dc.identifier.citation.es_PE.fl_str_mv Temoche Salinas, A. A. (2024). Comparación de algoritmos de machine learning para clasificar opiniones de usuarios acerca de publicaciones hechas por bancos de perú sobre phishing [Tesis para optar el Título Profesional de Ingeniero de Sistemas, Universidad de Lima]. Repositorio Institucional de la Universidad de Lima. https://hdl.handle.net/20.500.12724/21106
dc.identifier.uri.none.fl_str_mv https://hdl.handle.net/20.500.12724/21106
dc.identifier.isni.none.fl_str_mv 121541816
identifier_str_mv Temoche Salinas, A. A. (2024). Comparación de algoritmos de machine learning para clasificar opiniones de usuarios acerca de publicaciones hechas por bancos de perú sobre phishing [Tesis para optar el Título Profesional de Ingeniero de Sistemas, Universidad de Lima]. Repositorio Institucional de la Universidad de Lima. https://hdl.handle.net/20.500.12724/21106
121541816
url https://hdl.handle.net/20.500.12724/21106
dc.language.iso.none.fl_str_mv spa
language spa
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.*.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.*.fl_str_mv https://creativecommons.org/licenses/by-nc-sa/4.0/
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nc-sa/4.0/
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidad de Lima
dc.publisher.country.none.fl_str_mv PE
publisher.none.fl_str_mv Universidad de Lima
dc.source.none.fl_str_mv Repositorio Institucional - Ulima
Universidad de Lima
reponame:ULIMA-Institucional
instname:Universidad de Lima
instacron:ULIMA
instname_str Universidad de Lima
instacron_str ULIMA
institution ULIMA
reponame_str ULIMA-Institucional
collection ULIMA-Institucional
bitstream.url.fl_str_mv https://repositorio.ulima.edu.pe/bitstream/20.500.12724/21106/5/T018_72869284_T.pdf.jpg
https://repositorio.ulima.edu.pe/bitstream/20.500.12724/21106/7/FA_72869284.pdf.jpg
https://repositorio.ulima.edu.pe/bitstream/20.500.12724/21106/9/TURNITIN_DNI_72869284_20181875.pdf.jpg
https://repositorio.ulima.edu.pe/bitstream/20.500.12724/21106/4/T018_72869284_T.pdf.txt
https://repositorio.ulima.edu.pe/bitstream/20.500.12724/21106/6/FA_72869284.pdf.txt
https://repositorio.ulima.edu.pe/bitstream/20.500.12724/21106/8/TURNITIN_DNI_72869284_20181875.pdf.txt
https://repositorio.ulima.edu.pe/bitstream/20.500.12724/21106/1/T018_72869284_T.pdf
https://repositorio.ulima.edu.pe/bitstream/20.500.12724/21106/2/FA_72869284.pdf
https://repositorio.ulima.edu.pe/bitstream/20.500.12724/21106/3/TURNITIN_DNI_72869284_20181875.pdf
bitstream.checksum.fl_str_mv 3a757893327857fb745252863861bef6
7b31d1e0a7ddcaf1991f342886dbf012
3e4f0465399378f81ddcc603ce673ba9
2fda87de1f0f0d9898d73209cbe0f01e
f31dbe34b0d35ce53e478f84f7763404
11bbc9dc13bc1f4fa91df47ab181f451
e7b7cbbf87a5856f50bd5a2457da9dbd
01451eef2adc07dbfc9249a048ea80ea
c6e4c6f109df2118642742c229d4494a
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Universidad de Lima
repository.mail.fl_str_mv repositorio@ulima.edu.pe
_version_ 1845977499117289472
spelling Ramos Ponce, Oscar EfraínTemoche Salinas, Adrian Alonso2024-08-26T12:42:41Z2024-08-26T12:42:41Z2024Temoche Salinas, A. A. (2024). Comparación de algoritmos de machine learning para clasificar opiniones de usuarios acerca de publicaciones hechas por bancos de perú sobre phishing [Tesis para optar el Título Profesional de Ingeniero de Sistemas, Universidad de Lima]. Repositorio Institucional de la Universidad de Lima. https://hdl.handle.net/20.500.12724/21106https://hdl.handle.net/20.500.12724/21106121541816A nivel mundial el phishing en los últimos años se ha incrementado y el Perú no fue una excepción. Debido a la pandemia del Covid-19 se registró un aumento considerable de este tipo de ciberataques llamado phishing; entre los motivos de su crecimiento se encuentra la cuarentena. Este tipo de ataques suele afectar de manera negativa a los usuarios de internet y mucho más a las empresas, siendo uno de los ataques más frecuentes el phishing. Por ejemplo, en las noticias como en redes sociales se puede observar cómo los bancos o plataformas de pago advierten a sus usuarios sobre estos ataques para que estén atentos, al igual que se puede observar el malestar de los usuarios cuando publican o comentan en las redes sociales que han sido víctima de dichos ataques. Por este motivo, este trabajo busca identificar de manera correcta las opiniones de las personas acerca de publicaciones hechas por bancos de Perú sobre phishing, clasificando su opinión como positiva o negativa. Se utiliza procesamiento de lenguaje natural (PLN) y análisis de sentimiento para procesar el texto, con los algoritmos de Naive Bayes, Random Forest y Support Vector Machine (SVM) en el caso de machine learning y con el transformador BERT en el caso de deep learning, con el fin de conocer cuál de los cuatro algoritmos tiene mejores resultados. La metodología usada consiste en 5 pasos desde la búsqueda y creación del dataset, pasando por la etapa de preprocesamiento, entrenamiento, pruebas y finalizando en la evaluación de los resultados. De los cuatro algoritmos, BERT obtuvo el mejor resultado con una exactitud de 86.90% seguido de Naive Bayes que fue el que obtuvo un mejor resultado en la validación cruzada con 79.62% de exactitud y en la etapa de prueba con 86% de exactitud entre los tres algoritmos de machine learning. Además, los resultados obtenidos muestran que los tres algoritmos de machine learning tienen un desempeño similarPhishing in recent years has increased and this year was no exception. Due to the pandemic, there was a considerable increase in this type of cyber-attacks; among the reasons for its growth is the quarantine. This type of attack usually has a negative impact on Internet users and even more so on companies, with phishing being one of the most frequent attacks. For example, in the news and on social networks it can be observed how banks or payment platforms warn their users about these attacks so that they can be alert, as can be observed the discomfort of users when they post or comment on social media that they have been victims of such attacks. For this reason, this work seeks to correctly identify people's opinions about publications made by banks in Peru about phishing, classifying their opinion as positive or negative. Natural language processing (PLN) and sentiment analysis are used to process the text, with the Naive Bayes, Random Forest and Support Vector Machine (SVM) algorithms in the case of machine learning and with the BERT transformer in the case of deep learning, in order to know which of the four algorithms has better results. The methodology used consists of 5 steps from the search and creation of the dataset, through the preprocessing stage, training, testing, and ending with the evaluation of the results. Of the four algorithms, BERT obtained the best result with an accuracy of 86.90% followed by Naive Bayes which obtained the best result in the cross validation with 79.62% accuracy and in the testing stage with 86% accuracy among the three machine learning algorithms. In addition, the results obtained show that the three machine learning algorithms have similar performance.application/pdfspaUniversidad de LimaPEinfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nc-sa/4.0/Repositorio Institucional - UlimaUniversidad de Limareponame:ULIMA-Institucionalinstname:Universidad de Limainstacron:ULIMAAprenizaje automáticoAlgoritmos computacionales.Machine learningComputer algorithmshttps://purl.org/pe-repo/ocde/ford#2.02.04Comparación de algoritmos de machine learning para clasificar opiniones de usuarios acerca de publicaciones hechas por bancos de Perú sobre phishinginfo:eu-repo/semantics/bachelorThesisTesisSUNEDUTítulo ProfesionalIngeniería de SistemasUniversidad de Lima. Facultad de IngenieríaIngeniero de Sistemashttps://orcid.org/0000-0001-5185-97454419658161207672869284https://purl.org/pe-repo/renati/level#tituloProfesionalEscobedo Cardenas, Edwin JonathanMayhua Quispe, Angela GabrielaMore Sanchez, JavierRamos Ponce, Oscar Efrainhttps://purl.org/pe-repo/renati/type#tesis009THUMBNAILT018_72869284_T.pdf.jpgT018_72869284_T.pdf.jpgGenerated Thumbnailimage/jpeg11255https://repositorio.ulima.edu.pe/bitstream/20.500.12724/21106/5/T018_72869284_T.pdf.jpg3a757893327857fb745252863861bef6MD55FA_72869284.pdf.jpgFA_72869284.pdf.jpgGenerated Thumbnailimage/jpeg15983https://repositorio.ulima.edu.pe/bitstream/20.500.12724/21106/7/FA_72869284.pdf.jpg7b31d1e0a7ddcaf1991f342886dbf012MD57TURNITIN_DNI_72869284_20181875.pdf.jpgTURNITIN_DNI_72869284_20181875.pdf.jpgGenerated Thumbnailimage/jpeg7295https://repositorio.ulima.edu.pe/bitstream/20.500.12724/21106/9/TURNITIN_DNI_72869284_20181875.pdf.jpg3e4f0465399378f81ddcc603ce673ba9MD59TEXTT018_72869284_T.pdf.txtT018_72869284_T.pdf.txtExtracted texttext/plain128560https://repositorio.ulima.edu.pe/bitstream/20.500.12724/21106/4/T018_72869284_T.pdf.txt2fda87de1f0f0d9898d73209cbe0f01eMD54FA_72869284.pdf.txtFA_72869284.pdf.txtExtracted texttext/plain2561https://repositorio.ulima.edu.pe/bitstream/20.500.12724/21106/6/FA_72869284.pdf.txtf31dbe34b0d35ce53e478f84f7763404MD56TURNITIN_DNI_72869284_20181875.pdf.txtTURNITIN_DNI_72869284_20181875.pdf.txtExtracted texttext/plain3560https://repositorio.ulima.edu.pe/bitstream/20.500.12724/21106/8/TURNITIN_DNI_72869284_20181875.pdf.txt11bbc9dc13bc1f4fa91df47ab181f451MD58ORIGINALT018_72869284_T.pdfT018_72869284_T.pdfTesisapplication/pdf616000https://repositorio.ulima.edu.pe/bitstream/20.500.12724/21106/1/T018_72869284_T.pdfe7b7cbbf87a5856f50bd5a2457da9dbdMD51FA_72869284.pdfFA_72869284.pdfAutorizaciónapplication/pdf219805https://repositorio.ulima.edu.pe/bitstream/20.500.12724/21106/2/FA_72869284.pdf01451eef2adc07dbfc9249a048ea80eaMD52TURNITIN_DNI_72869284_20181875.pdfTURNITIN_DNI_72869284_20181875.pdfReporte de similitudapplication/pdf9459477https://repositorio.ulima.edu.pe/bitstream/20.500.12724/21106/3/TURNITIN_DNI_72869284_20181875.pdfc6e4c6f109df2118642742c229d4494aMD5320.500.12724/21106oai:repositorio.ulima.edu.pe:20.500.12724/211062025-09-17 13:54:54.154Repositorio Universidad de Limarepositorio@ulima.edu.pe
score 13.02468
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).