Integración de técnicas de deep learning y algoritmos de aprendizaje multi etiqueta para la Clasificación de Textos

Descripción del Articulo

En el campo del aprendizaje automático se realizan muchas aplicaciones, como la clasificación y agrupación de datos. La clasificación de datos puede ser de dos tipos: binaria cuando se tienen una clase y multi-clase cuando se tienen más de una clase. Ambos restringen a que una instancia a clasificar...

Descripción completa

Detalles Bibliográficos
Autor: Quispe Poccohuanca, Oscar Edmit
Formato: tesis de maestría
Fecha de Publicación:2018
Institución:Universidad Nacional de San Agustín
Repositorio:UNSA-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.unsa.edu.pe:UNSA/6422
Enlace del recurso:http://repositorio.unsa.edu.pe/handle/UNSA/6422
Nivel de acceso:acceso abierto
Materia:Redes neuronales
Convolucionales
Clasificación multi etiqueta
Clasificación de textos
Indexación semántica latente
https://purl.org/pe-repo/ocde/ford#2.02.04
id UNSA_ee200654d223c9e843fdcf3dece3aaa5
oai_identifier_str oai:repositorio.unsa.edu.pe:UNSA/6422
network_acronym_str UNSA
network_name_str UNSA-Institucional
repository_id_str 4847
dc.title.es_PE.fl_str_mv Integración de técnicas de deep learning y algoritmos de aprendizaje multi etiqueta para la Clasificación de Textos
title Integración de técnicas de deep learning y algoritmos de aprendizaje multi etiqueta para la Clasificación de Textos
spellingShingle Integración de técnicas de deep learning y algoritmos de aprendizaje multi etiqueta para la Clasificación de Textos
Quispe Poccohuanca, Oscar Edmit
Redes neuronales
Convolucionales
Clasificación multi etiqueta
Clasificación de textos
Indexación semántica latente
https://purl.org/pe-repo/ocde/ford#2.02.04
title_short Integración de técnicas de deep learning y algoritmos de aprendizaje multi etiqueta para la Clasificación de Textos
title_full Integración de técnicas de deep learning y algoritmos de aprendizaje multi etiqueta para la Clasificación de Textos
title_fullStr Integración de técnicas de deep learning y algoritmos de aprendizaje multi etiqueta para la Clasificación de Textos
title_full_unstemmed Integración de técnicas de deep learning y algoritmos de aprendizaje multi etiqueta para la Clasificación de Textos
title_sort Integración de técnicas de deep learning y algoritmos de aprendizaje multi etiqueta para la Clasificación de Textos
author Quispe Poccohuanca, Oscar Edmit
author_facet Quispe Poccohuanca, Oscar Edmit
author_role author
dc.contributor.advisor.fl_str_mv Ocsa Mamani, Alexander Victor
dc.contributor.author.fl_str_mv Quispe Poccohuanca, Oscar Edmit
dc.subject.es_PE.fl_str_mv Redes neuronales
Convolucionales
Clasificación multi etiqueta
Clasificación de textos
Indexación semántica latente
topic Redes neuronales
Convolucionales
Clasificación multi etiqueta
Clasificación de textos
Indexación semántica latente
https://purl.org/pe-repo/ocde/ford#2.02.04
dc.subject.ocde.es_PE.fl_str_mv https://purl.org/pe-repo/ocde/ford#2.02.04
description En el campo del aprendizaje automático se realizan muchas aplicaciones, como la clasificación y agrupación de datos. La clasificación de datos puede ser de dos tipos: binaria cuando se tienen una clase y multi-clase cuando se tienen más de una clase. Ambos restringen a que una instancia a clasificar pertenezca a una sola clase. Pero en la clasificación de textos es lógico pensar que un texto puede pertenecer a una o más clases. A este tipo de clasificación se le denomina clasificación multi-etiqueta y se encuentra dentro del aprendizaje multi-etiqueta. Sobre este tipo de clasificación los clasificadores binarios o multi-clase tienen dificultades para resolver esto, debido a que restrigen la clasificación a una sola etiqueta. Para afrontar este tipo de clasificación se han propuesto algunas maneras de resolver esto. Algunos autores proponen transformar la clasificación multi-etiqueta en clasificación binaria como el método Binary Relevance (BR). Con este método se pierde la correlación de las etiquetas y a su vez aumenta el tamaño del conjunto de datos de entrenamiento. Otras propuestas que se han realizado son adaptar algoritmos de clasificación binaria o multi-clase como las Máquinas de Soporte Vectorial o Redes Neuronales. Por otro lado, investigaciones recientes utilizan técnicas de deep learning (Aprendizaje Profundo) como son: la Redes Neuronales Convolucionales y Redes Neuronales Recurrentes para la clasificación de textos y oraciones. Por ahora estos solo trabajan con clasificación binaria y multi-clase. Analizando el modelo propuesto por Zhang, el cual es un modelo de clasificación que utiliza una representación de textos a nivel de caracteres y redes neuronales convolucionales como clasificador, se encontró que este modelo tiende a perder información, con lo cual, la precisión del clasificador disminuye. Por otro lado, dentro de los métodos de representación de textos se encuentran varios, uno que llama la atención es la Indexación Semántica Latente. Este método tiene resultados superiores a otros métodos de representación, ya que elimina la polisemia y sinonimia de palabras en los textos. En este trabajo se propone: primero representar los textos mediante Indexación Semántica Latente. Segundo, sobre esta representación utilizar Redes neuronales Convolucionales para la extracción de características, y finalmente aplicarlos sobre bases de datos con textos multi-clase y multi-etiqueta. Los resultados de los experimentos realizados, muestran que el modelo que se propone tiene una alta precisión cuando los textos a clasificar son grandes, mientras que con textos menor cantidad de caracteres el rendimiento del modelo disminuye.
publishDate 2018
dc.date.accessioned.none.fl_str_mv 2018-08-20T14:37:03Z
dc.date.available.none.fl_str_mv 2018-08-20T14:37:03Z
dc.date.issued.fl_str_mv 2018
dc.type.es_PE.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
dc.identifier.uri.none.fl_str_mv http://repositorio.unsa.edu.pe/handle/UNSA/6422
url http://repositorio.unsa.edu.pe/handle/UNSA/6422
dc.language.iso.es_PE.fl_str_mv spa
language spa
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.es_PE.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.es_PE.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/pe/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/pe/
dc.format.es_PE.fl_str_mv application/pdf
dc.publisher.es_PE.fl_str_mv Universidad Nacional de San Agustín de Arequipa
dc.source.es_PE.fl_str_mv Universidad Nacional de San Agustín de Arequipa
Repositorio Institucional - UNSA
dc.source.none.fl_str_mv reponame:UNSA-Institucional
instname:Universidad Nacional de San Agustín
instacron:UNSA
instname_str Universidad Nacional de San Agustín
instacron_str UNSA
institution UNSA
reponame_str UNSA-Institucional
collection UNSA-Institucional
bitstream.url.fl_str_mv https://repositorio.unsa.edu.pe/bitstreams/9e5faa4f-a813-4bb2-9970-cfbd964c726f/download
https://repositorio.unsa.edu.pe/bitstreams/8044889b-0471-4dc0-8633-efbd3be23952/download
bitstream.checksum.fl_str_mv c7e702aef3639058bd3b486df9edace0
9ddc6a034d50930d17e000b9fd06208a
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositorio Institucional UNSA
repository.mail.fl_str_mv repositorio@unsa.edu.pe
_version_ 1828762836407418880
spelling Ocsa Mamani, Alexander VictorQuispe Poccohuanca, Oscar Edmit2018-08-20T14:37:03Z2018-08-20T14:37:03Z2018En el campo del aprendizaje automático se realizan muchas aplicaciones, como la clasificación y agrupación de datos. La clasificación de datos puede ser de dos tipos: binaria cuando se tienen una clase y multi-clase cuando se tienen más de una clase. Ambos restringen a que una instancia a clasificar pertenezca a una sola clase. Pero en la clasificación de textos es lógico pensar que un texto puede pertenecer a una o más clases. A este tipo de clasificación se le denomina clasificación multi-etiqueta y se encuentra dentro del aprendizaje multi-etiqueta. Sobre este tipo de clasificación los clasificadores binarios o multi-clase tienen dificultades para resolver esto, debido a que restrigen la clasificación a una sola etiqueta. Para afrontar este tipo de clasificación se han propuesto algunas maneras de resolver esto. Algunos autores proponen transformar la clasificación multi-etiqueta en clasificación binaria como el método Binary Relevance (BR). Con este método se pierde la correlación de las etiquetas y a su vez aumenta el tamaño del conjunto de datos de entrenamiento. Otras propuestas que se han realizado son adaptar algoritmos de clasificación binaria o multi-clase como las Máquinas de Soporte Vectorial o Redes Neuronales. Por otro lado, investigaciones recientes utilizan técnicas de deep learning (Aprendizaje Profundo) como son: la Redes Neuronales Convolucionales y Redes Neuronales Recurrentes para la clasificación de textos y oraciones. Por ahora estos solo trabajan con clasificación binaria y multi-clase. Analizando el modelo propuesto por Zhang, el cual es un modelo de clasificación que utiliza una representación de textos a nivel de caracteres y redes neuronales convolucionales como clasificador, se encontró que este modelo tiende a perder información, con lo cual, la precisión del clasificador disminuye. Por otro lado, dentro de los métodos de representación de textos se encuentran varios, uno que llama la atención es la Indexación Semántica Latente. Este método tiene resultados superiores a otros métodos de representación, ya que elimina la polisemia y sinonimia de palabras en los textos. En este trabajo se propone: primero representar los textos mediante Indexación Semántica Latente. Segundo, sobre esta representación utilizar Redes neuronales Convolucionales para la extracción de características, y finalmente aplicarlos sobre bases de datos con textos multi-clase y multi-etiqueta. Los resultados de los experimentos realizados, muestran que el modelo que se propone tiene una alta precisión cuando los textos a clasificar son grandes, mientras que con textos menor cantidad de caracteres el rendimiento del modelo disminuye.Tesisapplication/pdfhttp://repositorio.unsa.edu.pe/handle/UNSA/6422spaUniversidad Nacional de San Agustín de Arequipainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/2.5/pe/Universidad Nacional de San Agustín de ArequipaRepositorio Institucional - UNSAreponame:UNSA-Institucionalinstname:Universidad Nacional de San Agustíninstacron:UNSARedes neuronalesConvolucionalesClasificación multi etiquetaClasificación de textosIndexación semántica latentehttps://purl.org/pe-repo/ocde/ford#2.02.04Integración de técnicas de deep learning y algoritmos de aprendizaje multi etiqueta para la Clasificación de Textosinfo:eu-repo/semantics/masterThesisSUNEDUMaestría en Ciencias: Informática, con mención en Tecnologías de InformaciónUniversidad Nacional de San Agustín de Arequipa.Unidad de Posgrado.Facultad de Ingeniería de Producción y ServiciosMaestríaMaestro en Ciencias: Informática, con mención en Tecnologías de InformaciónORIGINALISMqupooe.pdfapplication/pdf1414020https://repositorio.unsa.edu.pe/bitstreams/9e5faa4f-a813-4bb2-9970-cfbd964c726f/downloadc7e702aef3639058bd3b486df9edace0MD51TEXTISMqupooe.pdf.txtISMqupooe.pdf.txtExtracted texttext/plain132434https://repositorio.unsa.edu.pe/bitstreams/8044889b-0471-4dc0-8633-efbd3be23952/download9ddc6a034d50930d17e000b9fd06208aMD52UNSA/6422oai:repositorio.unsa.edu.pe:UNSA/64222022-05-29 11:32:52.502http://creativecommons.org/licenses/by-nc-nd/2.5/pe/info:eu-repo/semantics/openAccesshttps://repositorio.unsa.edu.peRepositorio Institucional UNSArepositorio@unsa.edu.pe
score 13.871978
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).