Método semi-supervisado para detectar, clasificar y anotar en un corpus de suicidio textos extraídos de entornos digitales
Descripción del Articulo
La presente tesis doctoral, con un enfoque cualicuantitativo (mixto), se enmarca en la línea del análisis de sentimientos en redes sociales, forma parte del proyecto Life, que busca crear una plataforma integral para detectar y brindar apoyo especializado a usuarios de redes sociales que publican te...
| Autor: | |
|---|---|
| Formato: | tesis doctoral |
| Fecha de Publicación: | 2022 |
| Institución: | Pontificia Universidad Católica del Perú |
| Repositorio: | PUCP-Tesis |
| Lenguaje: | español |
| OAI Identifier: | oai:tesis.pucp.edu.pe:20.500.12404/24174 |
| Enlace del recurso: | http://hdl.handle.net/20.500.12404/24174 |
| Nivel de acceso: | acceso abierto |
| Materia: | Aprendizaje automático (Inteligencia artificial) Procesamiento de datos Suicidio https://purl.org/pe-repo/ocde/ford#2.00.00 |
| Sumario: | La presente tesis doctoral, con un enfoque cualicuantitativo (mixto), se enmarca en la línea del análisis de sentimientos en redes sociales, forma parte del proyecto Life, que busca crear una plataforma integral para detectar y brindar apoyo especializado a usuarios de redes sociales que publican textos con contenido suicida. Por ello se desarrolló el Corpus Life para realizar experimentos con algoritmos de aprendizaje automático, mismo que originalmente constaba de 102 mensajes suicidas (71 textos en inglés y 31 textos en español), 70 de estas muestras Sin Riesgo y 32 con Riesgo. Pero debido al escaso número de muestras y al desbalance entre ellas, los resultados generados no eran confiables. Por ello esta investigación tuvo como objetivo general desarrollar un método semi-supervisado para detectar, clasificar y anotar en el Corpus Life, textos extraídos de entornos digitales, con el fin de incrementar su número de anotaciones, mediante un proceso de evaluación automática de su calidad, previo a su inclusión o exclusión. Anotaciones que fueron evaluadas manualmente, utilizando para ello la medida de concordancia Cohen´s Kappa, con la participación de anotadores especializados quienes evaluaron los textos, alcanzando un nivel de acuerdo entre anotadores de 0,86, cercano al 0,78-0,81 de significancia estadística alcanzado automáticamente por medio del índice macro f1, con el método semi-supervisado. Lo que conllevo a alcanzar experimentos de un mayor grado de confiabilidad, por medio de un método estructurado con actividades, roles y procesos bien definidos y enlazados. |
|---|
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).