Integración de técnicas de deep learning y algoritmos de aprendizaje multi etiqueta para la Clasificación de Textos

Descripción del Articulo

En el campo del aprendizaje automático se realizan muchas aplicaciones, como la clasificación y agrupación de datos. La clasificación de datos puede ser de dos tipos: binaria cuando se tienen una clase y multi-clase cuando se tienen más de una clase. Ambos restringen a que una instancia a clasificar...

Descripción completa

Detalles Bibliográficos
Autor: Quispe Poccohuanca, Oscar Edmit
Formato: tesis de maestría
Fecha de Publicación:2018
Institución:Consejo Nacional de Ciencia Tecnología e Innovación
Repositorio:CONCYTEC-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.concytec.gob.pe:20.500.12390/1671
Enlace del recurso:https://hdl.handle.net/20.500.12390/1671
Nivel de acceso:acceso abierto
Materia:Redes neuronales
Convolucionales
Clasificación multi etiqueta
Clasificación de textos
Indexación semántica latente
https://purl.org/pe-repo/ocde/ford#3.03.05
id CONC_298f40389983efdf16df20d37c0cfceb
oai_identifier_str oai:repositorio.concytec.gob.pe:20.500.12390/1671
network_acronym_str CONC
network_name_str CONCYTEC-Institucional
repository_id_str 4689
dc.title.none.fl_str_mv Integración de técnicas de deep learning y algoritmos de aprendizaje multi etiqueta para la Clasificación de Textos
title Integración de técnicas de deep learning y algoritmos de aprendizaje multi etiqueta para la Clasificación de Textos
spellingShingle Integración de técnicas de deep learning y algoritmos de aprendizaje multi etiqueta para la Clasificación de Textos
Quispe Poccohuanca, Oscar Edmit
Redes neuronales
Convolucionales
Clasificación multi etiqueta
Clasificación de textos
Indexación semántica latente
https://purl.org/pe-repo/ocde/ford#3.03.05
title_short Integración de técnicas de deep learning y algoritmos de aprendizaje multi etiqueta para la Clasificación de Textos
title_full Integración de técnicas de deep learning y algoritmos de aprendizaje multi etiqueta para la Clasificación de Textos
title_fullStr Integración de técnicas de deep learning y algoritmos de aprendizaje multi etiqueta para la Clasificación de Textos
title_full_unstemmed Integración de técnicas de deep learning y algoritmos de aprendizaje multi etiqueta para la Clasificación de Textos
title_sort Integración de técnicas de deep learning y algoritmos de aprendizaje multi etiqueta para la Clasificación de Textos
author Quispe Poccohuanca, Oscar Edmit
author_facet Quispe Poccohuanca, Oscar Edmit
author_role author
dc.contributor.author.fl_str_mv Quispe Poccohuanca, Oscar Edmit
dc.subject.none.fl_str_mv Redes neuronales
topic Redes neuronales
Convolucionales
Clasificación multi etiqueta
Clasificación de textos
Indexación semántica latente
https://purl.org/pe-repo/ocde/ford#3.03.05
dc.subject.es_PE.fl_str_mv Convolucionales
Clasificación multi etiqueta
Clasificación de textos
Indexación semántica latente
dc.subject.ocde.none.fl_str_mv https://purl.org/pe-repo/ocde/ford#3.03.05
description En el campo del aprendizaje automático se realizan muchas aplicaciones, como la clasificación y agrupación de datos. La clasificación de datos puede ser de dos tipos: binaria cuando se tienen una clase y multi-clase cuando se tienen más de una clase. Ambos restringen a que una instancia a clasificar pertenezca a una sola clase. Pero en la clasificación de textos es lógico pensar que un texto puede pertenecer a una o más clases. A este tipo de clasificación se le denomina clasificación multi-etiqueta y se encuentra dentro del aprendizaje multi-etiqueta. Sobre este tipo de clasificación los clasificadores binarios o multi-clase tienen dificultades para resolver esto, debido a que restrigen la clasificación a una sola etiqueta. Para afrontar este tipo de clasificación se han propuesto algunas maneras de resolver esto. Algunos autores proponen transformar la clasificación multi-etiqueta en clasificación binaria como el método Binary Relevance (BR). Con este método se pierde la correlación de las etiquetas y a su vez aumenta el tamaño del conjunto de datos de entrenamiento. Otras propuestas que se han realizado son adaptar algoritmos de clasificación binaria o multi-clase como las Máquinas de Soporte Vectorial o Redes Neuronales. Por otro lado, investigaciones recientes utilizan técnicas de deep learning (Aprendizaje Profundo) como son: la Redes Neuronales Convolucionales y Redes Neuronales Recurrentes para la clasificación de textos y oraciones. Por ahora estos solo trabajan con clasificación binaria y multi-clase. Analizando el modelo propuesto por Zhang, el cual es un modelo de clasificación que utiliza una representación de textos a nivel de caracteres y redes neuronales convolucionales como clasificador, se encontró que este modelo tiende a perder información, con lo cual, la precisión del clasificador disminuye. Por otro lado, dentro de los métodos de representación de textos se encuentran varios, uno que llama la atención es la Indexación Semántica Latente. Este método tiene resultados superiores a otros métodos de representación, ya que elimina la polisemia y sinonimia de palabras en los textos. En este trabajo se propone: primero representar los textos mediante Indexación Semántica Latente. Segundo, sobre esta representación utilizar Redes neuronales Convolucionales para la extracción de características, y finalmente aplicarlos sobre bases de datos con textos multi-clase y multi-etiqueta. Los resultados de los experimentos realizados, muestran que el modelo que se propone tiene una alta precisión cuando los textos a clasificar son grandes, mientras que con textos menor cantidad de caracteres el rendimiento del modelo disminuye.
publishDate 2018
dc.date.accessioned.none.fl_str_mv 2024-05-30T23:13:38Z
dc.date.available.none.fl_str_mv 2024-05-30T23:13:38Z
dc.date.issued.fl_str_mv 2018
dc.type.none.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
dc.identifier.uri.none.fl_str_mv https://hdl.handle.net/20.500.12390/1671
url https://hdl.handle.net/20.500.12390/1671
dc.language.iso.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.none.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/pe//
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/pe//
dc.publisher.none.fl_str_mv Universidad Nacional de San Agustín de Arequipa
publisher.none.fl_str_mv Universidad Nacional de San Agustín de Arequipa
dc.source.none.fl_str_mv reponame:CONCYTEC-Institucional
instname:Consejo Nacional de Ciencia Tecnología e Innovación
instacron:CONCYTEC
instname_str Consejo Nacional de Ciencia Tecnología e Innovación
instacron_str CONCYTEC
institution CONCYTEC
reponame_str CONCYTEC-Institucional
collection CONCYTEC-Institucional
repository.name.fl_str_mv Repositorio Institucional CONCYTEC
repository.mail.fl_str_mv repositorio@concytec.gob.pe
_version_ 1844883105898299392
spelling Publicationrp04562600Quispe Poccohuanca, Oscar Edmit2024-05-30T23:13:38Z2024-05-30T23:13:38Z2018https://hdl.handle.net/20.500.12390/1671En el campo del aprendizaje automático se realizan muchas aplicaciones, como la clasificación y agrupación de datos. La clasificación de datos puede ser de dos tipos: binaria cuando se tienen una clase y multi-clase cuando se tienen más de una clase. Ambos restringen a que una instancia a clasificar pertenezca a una sola clase. Pero en la clasificación de textos es lógico pensar que un texto puede pertenecer a una o más clases. A este tipo de clasificación se le denomina clasificación multi-etiqueta y se encuentra dentro del aprendizaje multi-etiqueta. Sobre este tipo de clasificación los clasificadores binarios o multi-clase tienen dificultades para resolver esto, debido a que restrigen la clasificación a una sola etiqueta. Para afrontar este tipo de clasificación se han propuesto algunas maneras de resolver esto. Algunos autores proponen transformar la clasificación multi-etiqueta en clasificación binaria como el método Binary Relevance (BR). Con este método se pierde la correlación de las etiquetas y a su vez aumenta el tamaño del conjunto de datos de entrenamiento. Otras propuestas que se han realizado son adaptar algoritmos de clasificación binaria o multi-clase como las Máquinas de Soporte Vectorial o Redes Neuronales. Por otro lado, investigaciones recientes utilizan técnicas de deep learning (Aprendizaje Profundo) como son: la Redes Neuronales Convolucionales y Redes Neuronales Recurrentes para la clasificación de textos y oraciones. Por ahora estos solo trabajan con clasificación binaria y multi-clase. Analizando el modelo propuesto por Zhang, el cual es un modelo de clasificación que utiliza una representación de textos a nivel de caracteres y redes neuronales convolucionales como clasificador, se encontró que este modelo tiende a perder información, con lo cual, la precisión del clasificador disminuye. Por otro lado, dentro de los métodos de representación de textos se encuentran varios, uno que llama la atención es la Indexación Semántica Latente. Este método tiene resultados superiores a otros métodos de representación, ya que elimina la polisemia y sinonimia de palabras en los textos. En este trabajo se propone: primero representar los textos mediante Indexación Semántica Latente. Segundo, sobre esta representación utilizar Redes neuronales Convolucionales para la extracción de características, y finalmente aplicarlos sobre bases de datos con textos multi-clase y multi-etiqueta. Los resultados de los experimentos realizados, muestran que el modelo que se propone tiene una alta precisión cuando los textos a clasificar son grandes, mientras que con textos menor cantidad de caracteres el rendimiento del modelo disminuye.Fondo Nacional de Desarrollo Científico y Tecnológico - FondecytspaUniversidad Nacional de San Agustín de Arequipainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/2.5/pe//Redes neuronalesConvolucionales-1Clasificación multi etiqueta-1Clasificación de textos-1Indexación semántica latente-1https://purl.org/pe-repo/ocde/ford#3.03.05-1Integración de técnicas de deep learning y algoritmos de aprendizaje multi etiqueta para la Clasificación de Textosinfo:eu-repo/semantics/masterThesisreponame:CONCYTEC-Institucionalinstname:Consejo Nacional de Ciencia Tecnología e Innovacióninstacron:CONCYTEC#PLACEHOLDER_PARENT_METADATA_VALUE#Maestro en Ciencias: Informática, con mención en Tecnologías de InformaciónMaestría en Ciencias: Informática, con mención en Tecnologías de InformaciónUniversidad Nacional de San Agustín de Arequipa.Unidad de Posgrado.Facultad de Administración20.500.12390/1671oai:repositorio.concytec.gob.pe:20.500.12390/16712024-05-30 15:39:13.687http://creativecommons.org/licenses/by-nc-nd/2.5/pe//info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_14cbinfo:eu-repo/semantics/closedAccessmetadata only accesshttps://repositorio.concytec.gob.peRepositorio Institucional CONCYTECrepositorio@concytec.gob.pe#PLACEHOLDER_PARENT_METADATA_VALUE#<Publication xmlns="https://www.openaire.eu/cerif-profile/1.1/" id="58f6f489-47b4-4262-a653-a3e4bba328fe"> <Type xmlns="https://www.openaire.eu/cerif-profile/vocab/COAR_Publication_Types">http://purl.org/coar/resource_type/c_1843</Type> <Language>spa</Language> <Title>Integración de técnicas de deep learning y algoritmos de aprendizaje multi etiqueta para la Clasificación de Textos</Title> <PublishedIn> <Publication> </Publication> </PublishedIn> <PublicationDate>2018</PublicationDate> <Authors> <Author> <DisplayName>Quispe Poccohuanca, Oscar Edmit</DisplayName> <Person id="rp04562" /> <Affiliation> <OrgUnit> </OrgUnit> </Affiliation> </Author> </Authors> <Editors> </Editors> <Publishers> <Publisher> <DisplayName>Universidad Nacional de San Agustín de Arequipa</DisplayName> <OrgUnit /> </Publisher> </Publishers> <License>http://creativecommons.org/licenses/by-nc-nd/2.5/pe//</License> <Keyword>Redes neuronales</Keyword> <Keyword>Convolucionales</Keyword> <Keyword>Clasificación multi etiqueta</Keyword> <Keyword>Clasificación de textos</Keyword> <Keyword>Indexación semántica latente</Keyword> <Abstract>En el campo del aprendizaje automático se realizan muchas aplicaciones, como la clasificación y agrupación de datos. La clasificación de datos puede ser de dos tipos: binaria cuando se tienen una clase y multi-clase cuando se tienen más de una clase. Ambos restringen a que una instancia a clasificar pertenezca a una sola clase. Pero en la clasificación de textos es lógico pensar que un texto puede pertenecer a una o más clases. A este tipo de clasificación se le denomina clasificación multi-etiqueta y se encuentra dentro del aprendizaje multi-etiqueta. Sobre este tipo de clasificación los clasificadores binarios o multi-clase tienen dificultades para resolver esto, debido a que restrigen la clasificación a una sola etiqueta. Para afrontar este tipo de clasificación se han propuesto algunas maneras de resolver esto. Algunos autores proponen transformar la clasificación multi-etiqueta en clasificación binaria como el método Binary Relevance (BR). Con este método se pierde la correlación de las etiquetas y a su vez aumenta el tamaño del conjunto de datos de entrenamiento. Otras propuestas que se han realizado son adaptar algoritmos de clasificación binaria o multi-clase como las Máquinas de Soporte Vectorial o Redes Neuronales. Por otro lado, investigaciones recientes utilizan técnicas de deep learning (Aprendizaje Profundo) como son: la Redes Neuronales Convolucionales y Redes Neuronales Recurrentes para la clasificación de textos y oraciones. Por ahora estos solo trabajan con clasificación binaria y multi-clase. Analizando el modelo propuesto por Zhang, el cual es un modelo de clasificación que utiliza una representación de textos a nivel de caracteres y redes neuronales convolucionales como clasificador, se encontró que este modelo tiende a perder información, con lo cual, la precisión del clasificador disminuye. Por otro lado, dentro de los métodos de representación de textos se encuentran varios, uno que llama la atención es la Indexación Semántica Latente. Este método tiene resultados superiores a otros métodos de representación, ya que elimina la polisemia y sinonimia de palabras en los textos. En este trabajo se propone: primero representar los textos mediante Indexación Semántica Latente. Segundo, sobre esta representación utilizar Redes neuronales Convolucionales para la extracción de características, y finalmente aplicarlos sobre bases de datos con textos multi-clase y multi-etiqueta. Los resultados de los experimentos realizados, muestran que el modelo que se propone tiene una alta precisión cuando los textos a clasificar son grandes, mientras que con textos menor cantidad de caracteres el rendimiento del modelo disminuye.</Abstract> <Access xmlns="http://purl.org/coar/access_right" > </Access> </Publication> -1
score 13.421253
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).