Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learning

Descripción del Articulo

La generación de diálogo implica diseñar un programa para generar una conversación natural, esto requiere desarrollar algoritmos que puedan conversar con un ser humano y otro programa de manera coherente y fluida. Desarrollar una conversación también depende del contexto y conocimiento del interlocu...

Descripción completa

Detalles Bibliográficos
Autor: Matos Rios, Hans
Formato: tesis de grado
Fecha de Publicación:2022
Institución:Pontificia Universidad Católica del Perú
Repositorio:PUCP-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.pucp.edu.pe:20.500.14657/184060
Enlace del recurso:http://hdl.handle.net/20.500.12404/21844
Nivel de acceso:acceso abierto
Materia:Algoritmos
Aprendizaje automático (Inteligencia artificial)
Inteligencia artificial
https://purl.org/pe-repo/ocde/ford#1.02.00
id RPUC_5eb99c5b231ad40aac81fe1fff94a0f6
oai_identifier_str oai:repositorio.pucp.edu.pe:20.500.14657/184060
network_acronym_str RPUC
network_name_str PUCP-Institucional
repository_id_str 2905
spelling Beltrán Castañón, César ArmandoMatos Rios, Hans2022-03-21T21:47:38Z2022-03-21T21:47:38Z20222022-03-21http://hdl.handle.net/20.500.12404/21844La generación de diálogo implica diseñar un programa para generar una conversación natural, esto requiere desarrollar algoritmos que puedan conversar con un ser humano y otro programa de manera coherente y fluida. Desarrollar una conversación también depende del contexto y conocimiento del interlocutor, lo cual nos lleva a definir la existencia de niveles de complejidad conversacional, la cual se refiere a determinar que tan fácil o difícil de leer es un texto. En este aspecto, especialmente para el idioma español, no existe una herramienta que tenga un módulo propio que le permita clasificar textos en español por su complejidad textual. En el presente trabajo de fin de carrera se realiza el desarrollo de un módulo en el lenguaje de programación Python, el cual funciona como un Framework para identificar la complejidad textual de textos en español usando técnicas de Machine Learning. Para ello, en primer lugar, se implementaron 48 métricas de análisis de complejidad textual basadas en Coh-Metrix usando el lenguaje de programación Python. Dichas métricas convierten textos en español en datos numéricos con los cuales se entrenaron distintos modelos de Machine Learning, con el motivo de obtener el mejor modelo a utilizar con el Framework desarrollado, siendo este capaz de utilizar un modelo personalizado provisto por el usuario. Para ello, se necesitó obtener un corpus de 183 textos en español para realizar dicho entrenamiento, el cual fue obtenido al descargar textos educativos de nivel primaria y secundaria. Por último, se entrenó un chatbot con los textos obtenidos para el corpus, cuyas respuestas generadas fueron analizados con el Framework previamente desarrollado, identificando que el nivel de complejidad de dichas respuestas correspondía al nivel de los textos con los cuales el chatbot fue entrenado. En conclusión, en el presente proyecto de investigación se desarrolla un módulo de Python que funciona como un Framework, el cual es capaz de identificar la complejidad textual de textos en español, ya sea con el mejor modelo de Machine Learning utilizado en el presente proyecto o utilizando uno provisto por el usuario de la herramienta.spaPontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/2.5/pe/AlgoritmosAprendizaje automático (Inteligencia artificial)Inteligencia artificialhttps://purl.org/pe-repo/ocde/ford#1.02.00Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learninginfo:eu-repo/semantics/bachelorThesisreponame:PUCP-Institucionalinstname:Pontificia Universidad Católica del Perúinstacron:PUCPIngeniero InformáticoTítulo ProfesionalPontificia Universidad Católica del Perú. Facultad de Ciencias e IngenieríaIngeniería Informática29561260https://orcid.org/0000-0002-0173-414072191674612286Hirsh Martinez, LaylaBeltran Castañon, Cesar ArmandoCueva Moscoso, Ronyhttps://purl.org/pe-repo/renati/level#tituloProfesionalhttps://purl.org/pe-repo/renati/type#tesis20.500.14657/184060oai:repositorio.pucp.edu.pe:20.500.14657/1840602025-03-11 10:28:32.056http://creativecommons.org/licenses/by-nc-sa/2.5/pe/info:eu-repo/semantics/openAccessmetadata.onlyhttps://repositorio.pucp.edu.peRepositorio Institucional de la PUCPrepositorio@pucp.pe
dc.title.es_ES.fl_str_mv Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learning
title Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learning
spellingShingle Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learning
Matos Rios, Hans
Algoritmos
Aprendizaje automático (Inteligencia artificial)
Inteligencia artificial
https://purl.org/pe-repo/ocde/ford#1.02.00
title_short Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learning
title_full Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learning
title_fullStr Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learning
title_full_unstemmed Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learning
title_sort Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learning
author Matos Rios, Hans
author_facet Matos Rios, Hans
author_role author
dc.contributor.advisor.fl_str_mv Beltrán Castañón, César Armando
dc.contributor.author.fl_str_mv Matos Rios, Hans
dc.subject.es_ES.fl_str_mv Algoritmos
Aprendizaje automático (Inteligencia artificial)
Inteligencia artificial
topic Algoritmos
Aprendizaje automático (Inteligencia artificial)
Inteligencia artificial
https://purl.org/pe-repo/ocde/ford#1.02.00
dc.subject.ocde.es_ES.fl_str_mv https://purl.org/pe-repo/ocde/ford#1.02.00
description La generación de diálogo implica diseñar un programa para generar una conversación natural, esto requiere desarrollar algoritmos que puedan conversar con un ser humano y otro programa de manera coherente y fluida. Desarrollar una conversación también depende del contexto y conocimiento del interlocutor, lo cual nos lleva a definir la existencia de niveles de complejidad conversacional, la cual se refiere a determinar que tan fácil o difícil de leer es un texto. En este aspecto, especialmente para el idioma español, no existe una herramienta que tenga un módulo propio que le permita clasificar textos en español por su complejidad textual. En el presente trabajo de fin de carrera se realiza el desarrollo de un módulo en el lenguaje de programación Python, el cual funciona como un Framework para identificar la complejidad textual de textos en español usando técnicas de Machine Learning. Para ello, en primer lugar, se implementaron 48 métricas de análisis de complejidad textual basadas en Coh-Metrix usando el lenguaje de programación Python. Dichas métricas convierten textos en español en datos numéricos con los cuales se entrenaron distintos modelos de Machine Learning, con el motivo de obtener el mejor modelo a utilizar con el Framework desarrollado, siendo este capaz de utilizar un modelo personalizado provisto por el usuario. Para ello, se necesitó obtener un corpus de 183 textos en español para realizar dicho entrenamiento, el cual fue obtenido al descargar textos educativos de nivel primaria y secundaria. Por último, se entrenó un chatbot con los textos obtenidos para el corpus, cuyas respuestas generadas fueron analizados con el Framework previamente desarrollado, identificando que el nivel de complejidad de dichas respuestas correspondía al nivel de los textos con los cuales el chatbot fue entrenado. En conclusión, en el presente proyecto de investigación se desarrolla un módulo de Python que funciona como un Framework, el cual es capaz de identificar la complejidad textual de textos en español, ya sea con el mejor modelo de Machine Learning utilizado en el presente proyecto o utilizando uno provisto por el usuario de la herramienta.
publishDate 2022
dc.date.accessioned.none.fl_str_mv 2022-03-21T21:47:38Z
dc.date.available.none.fl_str_mv 2022-03-21T21:47:38Z
dc.date.created.none.fl_str_mv 2022
dc.date.issued.fl_str_mv 2022-03-21
dc.type.es_ES.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12404/21844
url http://hdl.handle.net/20.500.12404/21844
dc.language.iso.es_ES.fl_str_mv spa
language spa
dc.rights.es_ES.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.none.fl_str_mv http://creativecommons.org/licenses/by-nc-sa/2.5/pe/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-sa/2.5/pe/
dc.publisher.es_ES.fl_str_mv Pontificia Universidad Católica del Perú
dc.publisher.country.es_ES.fl_str_mv PE
dc.source.none.fl_str_mv reponame:PUCP-Institucional
instname:Pontificia Universidad Católica del Perú
instacron:PUCP
instname_str Pontificia Universidad Católica del Perú
instacron_str PUCP
institution PUCP
reponame_str PUCP-Institucional
collection PUCP-Institucional
repository.name.fl_str_mv Repositorio Institucional de la PUCP
repository.mail.fl_str_mv repositorio@pucp.pe
_version_ 1835638367997394944
score 13.7211075
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).