Método semi-supervisado para detectar, clasificar y anotar en un corpus de suicidio textos extraídos de entornos digitales

Descripción del Articulo

La presente tesis doctoral, con un enfoque cualicuantitativo (mixto), se enmarca en la línea del análisis de sentimientos en redes sociales, forma parte del proyecto Life, que busca crear una plataforma integral para detectar y brindar apoyo especializado a usuarios de redes sociales que publican te...

Descripción completa

Detalles Bibliográficos
Autor: Acuña Caicedo, Roberto Wellington
Formato: tesis doctoral
Fecha de Publicación:2022
Institución:Pontificia Universidad Católica del Perú
Repositorio:PUCP-Tesis
Lenguaje:español
OAI Identifier:oai:tesis.pucp.edu.pe:20.500.12404/24174
Enlace del recurso:http://hdl.handle.net/20.500.12404/24174
Nivel de acceso:acceso abierto
Materia:Aprendizaje automático (Inteligencia artificial)
Procesamiento de datos
Suicidio
https://purl.org/pe-repo/ocde/ford#2.00.00
id PUCP_94703a08003f1c783570ef0194a86429
oai_identifier_str oai:tesis.pucp.edu.pe:20.500.12404/24174
network_acronym_str PUCP
network_name_str PUCP-Tesis
repository_id_str .
dc.title.es_ES.fl_str_mv Método semi-supervisado para detectar, clasificar y anotar en un corpus de suicidio textos extraídos de entornos digitales
title Método semi-supervisado para detectar, clasificar y anotar en un corpus de suicidio textos extraídos de entornos digitales
spellingShingle Método semi-supervisado para detectar, clasificar y anotar en un corpus de suicidio textos extraídos de entornos digitales
Acuña Caicedo, Roberto Wellington
Aprendizaje automático (Inteligencia artificial)
Procesamiento de datos
Suicidio
https://purl.org/pe-repo/ocde/ford#2.00.00
title_short Método semi-supervisado para detectar, clasificar y anotar en un corpus de suicidio textos extraídos de entornos digitales
title_full Método semi-supervisado para detectar, clasificar y anotar en un corpus de suicidio textos extraídos de entornos digitales
title_fullStr Método semi-supervisado para detectar, clasificar y anotar en un corpus de suicidio textos extraídos de entornos digitales
title_full_unstemmed Método semi-supervisado para detectar, clasificar y anotar en un corpus de suicidio textos extraídos de entornos digitales
title_sort Método semi-supervisado para detectar, clasificar y anotar en un corpus de suicidio textos extraídos de entornos digitales
author Acuña Caicedo, Roberto Wellington
author_facet Acuña Caicedo, Roberto Wellington
author_role author
dc.contributor.advisor.fl_str_mv Melgar Sasieta, Héctor Andrés
dc.contributor.author.fl_str_mv Acuña Caicedo, Roberto Wellington
dc.subject.es_ES.fl_str_mv Aprendizaje automático (Inteligencia artificial)
Procesamiento de datos
Suicidio
topic Aprendizaje automático (Inteligencia artificial)
Procesamiento de datos
Suicidio
https://purl.org/pe-repo/ocde/ford#2.00.00
dc.subject.ocde.none.fl_str_mv https://purl.org/pe-repo/ocde/ford#2.00.00
description La presente tesis doctoral, con un enfoque cualicuantitativo (mixto), se enmarca en la línea del análisis de sentimientos en redes sociales, forma parte del proyecto Life, que busca crear una plataforma integral para detectar y brindar apoyo especializado a usuarios de redes sociales que publican textos con contenido suicida. Por ello se desarrolló el Corpus Life para realizar experimentos con algoritmos de aprendizaje automático, mismo que originalmente constaba de 102 mensajes suicidas (71 textos en inglés y 31 textos en español), 70 de estas muestras Sin Riesgo y 32 con Riesgo. Pero debido al escaso número de muestras y al desbalance entre ellas, los resultados generados no eran confiables. Por ello esta investigación tuvo como objetivo general desarrollar un método semi-supervisado para detectar, clasificar y anotar en el Corpus Life, textos extraídos de entornos digitales, con el fin de incrementar su número de anotaciones, mediante un proceso de evaluación automática de su calidad, previo a su inclusión o exclusión. Anotaciones que fueron evaluadas manualmente, utilizando para ello la medida de concordancia Cohen´s Kappa, con la participación de anotadores especializados quienes evaluaron los textos, alcanzando un nivel de acuerdo entre anotadores de 0,86, cercano al 0,78-0,81 de significancia estadística alcanzado automáticamente por medio del índice macro f1, con el método semi-supervisado. Lo que conllevo a alcanzar experimentos de un mayor grado de confiabilidad, por medio de un método estructurado con actividades, roles y procesos bien definidos y enlazados.
publishDate 2022
dc.date.created.none.fl_str_mv 2022
dc.date.accessioned.none.fl_str_mv 2023-01-31T16:06:59Z
dc.date.available.none.fl_str_mv 2023-01-31T16:06:59Z
dc.date.issued.fl_str_mv 2023-01-31
dc.type.es_ES.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12404/24174
url http://hdl.handle.net/20.500.12404/24174
dc.language.iso.none.fl_str_mv spa
language spa
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.es_ES.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by/2.5/pe/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by/2.5/pe/
dc.publisher.es_ES.fl_str_mv Pontificia Universidad Católica del Perú
dc.publisher.country.none.fl_str_mv PE
dc.source.none.fl_str_mv reponame:PUCP-Tesis
instname:Pontificia Universidad Católica del Perú
instacron:PUCP
instname_str Pontificia Universidad Católica del Perú
instacron_str PUCP
institution PUCP
reponame_str PUCP-Tesis
collection PUCP-Tesis
bitstream.url.fl_str_mv https://tesis.pucp.edu.pe/bitstreams/5b7c29a7-6f4e-4af6-b7ab-f2bdae3313a6/download
https://tesis.pucp.edu.pe/bitstreams/9fe56e64-9092-43f1-ab75-d78d1e5b122b/download
https://tesis.pucp.edu.pe/bitstreams/5d6949e1-57b9-4436-8cf4-45231eacdade/download
https://tesis.pucp.edu.pe/bitstreams/8f25a64e-b032-4d6f-9ab2-4bc38a7e8b43/download
https://tesis.pucp.edu.pe/bitstreams/05183085-568d-48e3-9f72-78b832a9c096/download
https://tesis.pucp.edu.pe/bitstreams/31d237fb-f272-4076-b477-f9ac5e5029d9/download
https://tesis.pucp.edu.pe/bitstreams/c871604a-c9c2-4f54-afa7-2920ec36f7bd/download
bitstream.checksum.fl_str_mv 2b0f0d061a6d008db0c01a6b12cfdb22
65dc317cc0952cdfe56686b2e04af1cd
5a4ffbc01f1b5eb70a835dac0d501661
8a4605be74aa9ea9d79846c1fba20a33
012874d6c766f0363de5572fa82c50fa
e465200bef56c72212136d1458b92a1e
8e864cbd7c0f00fb4eba4889300ef931
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio de Tesis PUCP
repository.mail.fl_str_mv raul.sifuentes@pucp.pe
_version_ 1834736812134760448
spelling Melgar Sasieta, Héctor AndrésAcuña Caicedo, Roberto Wellington2023-01-31T16:06:59Z2023-01-31T16:06:59Z20222023-01-31http://hdl.handle.net/20.500.12404/24174La presente tesis doctoral, con un enfoque cualicuantitativo (mixto), se enmarca en la línea del análisis de sentimientos en redes sociales, forma parte del proyecto Life, que busca crear una plataforma integral para detectar y brindar apoyo especializado a usuarios de redes sociales que publican textos con contenido suicida. Por ello se desarrolló el Corpus Life para realizar experimentos con algoritmos de aprendizaje automático, mismo que originalmente constaba de 102 mensajes suicidas (71 textos en inglés y 31 textos en español), 70 de estas muestras Sin Riesgo y 32 con Riesgo. Pero debido al escaso número de muestras y al desbalance entre ellas, los resultados generados no eran confiables. Por ello esta investigación tuvo como objetivo general desarrollar un método semi-supervisado para detectar, clasificar y anotar en el Corpus Life, textos extraídos de entornos digitales, con el fin de incrementar su número de anotaciones, mediante un proceso de evaluación automática de su calidad, previo a su inclusión o exclusión. Anotaciones que fueron evaluadas manualmente, utilizando para ello la medida de concordancia Cohen´s Kappa, con la participación de anotadores especializados quienes evaluaron los textos, alcanzando un nivel de acuerdo entre anotadores de 0,86, cercano al 0,78-0,81 de significancia estadística alcanzado automáticamente por medio del índice macro f1, con el método semi-supervisado. Lo que conllevo a alcanzar experimentos de un mayor grado de confiabilidad, por medio de un método estructurado con actividades, roles y procesos bien definidos y enlazados.This doctoral thesis with a qualitative-quantitative (mixed) approach is part of the analysis of feelings in social networks that publish texts with suicidal content. For this reason, Corpus life was developed to carry out experiments with machine learning algorithms, which originally consisted of 102 suicide messages (71 texts in English and 31 texts in Spanish), 70 of these samples without risk and 32 with risk. But due to the small number of samples and the imbalance between them, the generated outcome was not reliable. Therefore, this research had the general objective of developing a semi-supervised method to detect, classify and annotate in the Corpus Life, texts extracted from digital environments, in order to increase their number of annotations, through a process of automatic assessments of their quality, prior to their inclusion or exclusion. Records which were tested manually, using the Cohen's Kappa concordance measure, with the participation of specialized annotators who evaluated the texts, reaching a level of agreement between annotators of 0.86, close to 0.78-0.81 of statistically significant reaching automatically by means of the f1 macro index, with the semi-supervised method. This led to achieving experiments with a higher degree of reliability, through a structured method with well-defined and linked activities, roles and processes.spaPontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by/2.5/pe/Aprendizaje automático (Inteligencia artificial)Procesamiento de datosSuicidiohttps://purl.org/pe-repo/ocde/ford#2.00.00Método semi-supervisado para detectar, clasificar y anotar en un corpus de suicidio textos extraídos de entornos digitalesinfo:eu-repo/semantics/doctoralThesisreponame:PUCP-Tesisinstname:Pontificia Universidad Católica del Perúinstacron:PUCPSUNEDUDoctor en IngenieríaDoctoradoPontificia Universidad Católica del Perú. Escuela de PosgradoIngeniería10145776https://orcid.org/0000-0003-1110-123X1307094936732028Bravo Márquez, Felipe JoséMelgar Sasieta, Hector AndresGómez Soriano, José ManuelBeltran Castañon, Cesar ArmandoPaz Espinoza, Freddy Albertohttps://purl.org/pe-repo/renati/level#doctorhttps://purl.org/pe-repo/renati/type#tesisORIGINALACUÑA_CAICEDO_ROBERTO_METODO_SEMI_SUPERVISADO.pdfACUÑA_CAICEDO_ROBERTO_METODO_SEMI_SUPERVISADO.pdfTexto completoapplication/pdf1862518https://tesis.pucp.edu.pe/bitstreams/5b7c29a7-6f4e-4af6-b7ab-f2bdae3313a6/download2b0f0d061a6d008db0c01a6b12cfdb22MD51trueAnonymousREADACUÑA_CAICEDO_ROBERTO_WELLINGTON_T.pdfACUÑA_CAICEDO_ROBERTO_WELLINGTON_T.pdfReporte de originalidadapplication/pdf22373199https://tesis.pucp.edu.pe/bitstreams/9fe56e64-9092-43f1-ab75-d78d1e5b122b/download65dc317cc0952cdfe56686b2e04af1cdMD52falseAnonymousREAD2500-01-01CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8914https://tesis.pucp.edu.pe/bitstreams/5d6949e1-57b9-4436-8cf4-45231eacdade/download5a4ffbc01f1b5eb70a835dac0d501661MD53falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://tesis.pucp.edu.pe/bitstreams/8f25a64e-b032-4d6f-9ab2-4bc38a7e8b43/download8a4605be74aa9ea9d79846c1fba20a33MD54falseAnonymousREADTHUMBNAILACUÑA_CAICEDO_ROBERTO_METODO_SEMI_SUPERVISADO.pdf.jpgACUÑA_CAICEDO_ROBERTO_METODO_SEMI_SUPERVISADO.pdf.jpgIM Thumbnailimage/jpeg12315https://tesis.pucp.edu.pe/bitstreams/05183085-568d-48e3-9f72-78b832a9c096/download012874d6c766f0363de5572fa82c50faMD55falseAnonymousREADACUÑA_CAICEDO_ROBERTO_WELLINGTON_T.pdf.jpgACUÑA_CAICEDO_ROBERTO_WELLINGTON_T.pdf.jpgIM Thumbnailimage/jpeg7891https://tesis.pucp.edu.pe/bitstreams/31d237fb-f272-4076-b477-f9ac5e5029d9/downloade465200bef56c72212136d1458b92a1eMD56falseAnonymousREAD2500-01-01TEXTACUÑA_CAICEDO_ROBERTO_WELLINGTON_T.pdf.txtACUÑA_CAICEDO_ROBERTO_WELLINGTON_T.pdf.txtExtracted texttext/plain6913https://tesis.pucp.edu.pe/bitstreams/c871604a-c9c2-4f54-afa7-2920ec36f7bd/download8e864cbd7c0f00fb4eba4889300ef931MD57falseAnonymousREAD2500-01-0120.500.12404/24174oai:tesis.pucp.edu.pe:20.500.12404/241742025-04-21 11:17:13.922http://creativecommons.org/licenses/by/2.5/pe/info:eu-repo/semantics/openAccessopen.accesshttps://tesis.pucp.edu.peRepositorio de Tesis PUCPraul.sifuentes@pucp.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=
score 13.905324
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).