Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learning

Matos Rios, Hans

Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learning

Descripción del Articulo

La generación de diálogo implica diseñar un programa para generar una conversación natural, esto requiere desarrollar algoritmos que puedan conversar con un ser humano y otro programa de manera coherente y fluida. Desarrollar una conversación también depende del contexto y conocimiento del interlocu...

Descripción completa

Detalles Bibliográficos
Autor:	Matos Rios, Hans
Formato:	tesis de grado
Fecha de Publicación:	2022
Institución:	Pontificia Universidad Católica del Perú
Repositorio:	PUCP-Tesis
Lenguaje:	español
OAI Identifier:	oai:tesis.pucp.edu.pe:20.500.12404/21844
Enlace del recurso:	http://hdl.handle.net/20.500.12404/21844
Nivel de acceso:	acceso abierto
Materia:	Algoritmos Aprendizaje automático (Inteligencia artificial) Inteligencia artificial https://purl.org/pe-repo/ocde/ford#1.02.00

id	PUCP_94768f1720480418b2fa473df474d422
oai_identifier_str	oai:tesis.pucp.edu.pe:20.500.12404/21844
network_acronym_str	PUCP
network_name_str	PUCP-Tesis
repository_id_str	.
dc.title.es_ES.fl_str_mv	Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learning
title	Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learning
spellingShingle	Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learning Matos Rios, Hans Algoritmos Aprendizaje automático (Inteligencia artificial) Inteligencia artificial https://purl.org/pe-repo/ocde/ford#1.02.00
title_short	Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learning
title_full	Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learning
title_fullStr	Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learning
title_full_unstemmed	Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learning
title_sort	Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learning
author	Matos Rios, Hans
author_facet	Matos Rios, Hans
author_role	author
dc.contributor.advisor.fl_str_mv	Beltrán Castañón, César Armando
dc.contributor.author.fl_str_mv	Matos Rios, Hans
dc.subject.es_ES.fl_str_mv	Algoritmos Aprendizaje automático (Inteligencia artificial) Inteligencia artificial
topic	Algoritmos Aprendizaje automático (Inteligencia artificial) Inteligencia artificial https://purl.org/pe-repo/ocde/ford#1.02.00
dc.subject.ocde.es_ES.fl_str_mv	https://purl.org/pe-repo/ocde/ford#1.02.00
description	La generación de diálogo implica diseñar un programa para generar una conversación natural, esto requiere desarrollar algoritmos que puedan conversar con un ser humano y otro programa de manera coherente y fluida. Desarrollar una conversación también depende del contexto y conocimiento del interlocutor, lo cual nos lleva a definir la existencia de niveles de complejidad conversacional, la cual se refiere a determinar que tan fácil o difícil de leer es un texto. En este aspecto, especialmente para el idioma español, no existe una herramienta que tenga un módulo propio que le permita clasificar textos en español por su complejidad textual. En el presente trabajo de fin de carrera se realiza el desarrollo de un módulo en el lenguaje de programación Python, el cual funciona como un Framework para identificar la complejidad textual de textos en español usando técnicas de Machine Learning. Para ello, en primer lugar, se implementaron 48 métricas de análisis de complejidad textual basadas en Coh-Metrix usando el lenguaje de programación Python. Dichas métricas convierten textos en español en datos numéricos con los cuales se entrenaron distintos modelos de Machine Learning, con el motivo de obtener el mejor modelo a utilizar con el Framework desarrollado, siendo este capaz de utilizar un modelo personalizado provisto por el usuario. Para ello, se necesitó obtener un corpus de 183 textos en español para realizar dicho entrenamiento, el cual fue obtenido al descargar textos educativos de nivel primaria y secundaria. Por último, se entrenó un chatbot con los textos obtenidos para el corpus, cuyas respuestas generadas fueron analizados con el Framework previamente desarrollado, identificando que el nivel de complejidad de dichas respuestas correspondía al nivel de los textos con los cuales el chatbot fue entrenado. En conclusión, en el presente proyecto de investigación se desarrolla un módulo de Python que funciona como un Framework, el cual es capaz de identificar la complejidad textual de textos en español, ya sea con el mejor modelo de Machine Learning utilizado en el presente proyecto o utilizando uno provisto por el usuario de la herramienta.
publishDate	2022
dc.date.accessioned.none.fl_str_mv	2022-03-21T21:47:38Z
dc.date.available.none.fl_str_mv	2022-03-21T21:47:38Z
dc.date.created.none.fl_str_mv	2022
dc.date.issued.fl_str_mv	2022-03-21
dc.type.es_ES.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
dc.identifier.uri.none.fl_str_mv	http://hdl.handle.net/20.500.12404/21844
url	http://hdl.handle.net/20.500.12404/21844
dc.language.iso.es_ES.fl_str_mv	spa
language	spa
dc.relation.ispartof.fl_str_mv	SUNEDU
dc.rights.es_ES.fl_str_mv	info:eu-repo/semantics/openAccess
dc.rights.uri.*.fl_str_mv	http://creativecommons.org/licenses/by-nc-sa/2.5/pe/
eu_rights_str_mv	openAccess
rights_invalid_str_mv	http://creativecommons.org/licenses/by-nc-sa/2.5/pe/
dc.publisher.es_ES.fl_str_mv	Pontificia Universidad Católica del Perú
dc.publisher.country.es_ES.fl_str_mv	PE
dc.source.none.fl_str_mv	reponame:PUCP-Tesis instname:Pontificia Universidad Católica del Perú instacron:PUCP
instname_str	Pontificia Universidad Católica del Perú
instacron_str	PUCP
institution	PUCP
reponame_str	PUCP-Tesis
collection	PUCP-Tesis
bitstream.url.fl_str_mv	https://tesis.pucp.edu.pe/bitstreams/a6a4e0b3-4a01-43f1-8b8f-b042652b2ec9/download https://tesis.pucp.edu.pe/bitstreams/d1d88f76-91dc-471c-abf3-b42e604d98ca/download https://tesis.pucp.edu.pe/bitstreams/1d8f84b7-81f8-4416-a5dd-d5cff20d9c4d/download https://tesis.pucp.edu.pe/bitstreams/f500160c-6c2d-4fd9-b0c9-57f6322c7e16/download https://tesis.pucp.edu.pe/bitstreams/493efb4d-1f88-49fb-9f60-11bbbf9e7242/download
bitstream.checksum.fl_str_mv	5a8539dedc0b2f228a58292402789789 8fc46f5e71650fd7adee84a69b9163c2 8a4605be74aa9ea9d79846c1fba20a33 344b12b9c195d17566c705bd4ca2f450 6f7ace48dcdf62942b28c46ad563807d
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositorio de Tesis PUCP
repository.mail.fl_str_mv	raul.sifuentes@pucp.pe
_version_	1834736833232109568
spelling	Beltrán Castañón, César ArmandoMatos Rios, Hans2022-03-21T21:47:38Z2022-03-21T21:47:38Z20222022-03-21http://hdl.handle.net/20.500.12404/21844La generación de diálogo implica diseñar un programa para generar una conversación natural, esto requiere desarrollar algoritmos que puedan conversar con un ser humano y otro programa de manera coherente y fluida. Desarrollar una conversación también depende del contexto y conocimiento del interlocutor, lo cual nos lleva a definir la existencia de niveles de complejidad conversacional, la cual se refiere a determinar que tan fácil o difícil de leer es un texto. En este aspecto, especialmente para el idioma español, no existe una herramienta que tenga un módulo propio que le permita clasificar textos en español por su complejidad textual. En el presente trabajo de fin de carrera se realiza el desarrollo de un módulo en el lenguaje de programación Python, el cual funciona como un Framework para identificar la complejidad textual de textos en español usando técnicas de Machine Learning. Para ello, en primer lugar, se implementaron 48 métricas de análisis de complejidad textual basadas en Coh-Metrix usando el lenguaje de programación Python. Dichas métricas convierten textos en español en datos numéricos con los cuales se entrenaron distintos modelos de Machine Learning, con el motivo de obtener el mejor modelo a utilizar con el Framework desarrollado, siendo este capaz de utilizar un modelo personalizado provisto por el usuario. Para ello, se necesitó obtener un corpus de 183 textos en español para realizar dicho entrenamiento, el cual fue obtenido al descargar textos educativos de nivel primaria y secundaria. Por último, se entrenó un chatbot con los textos obtenidos para el corpus, cuyas respuestas generadas fueron analizados con el Framework previamente desarrollado, identificando que el nivel de complejidad de dichas respuestas correspondía al nivel de los textos con los cuales el chatbot fue entrenado. En conclusión, en el presente proyecto de investigación se desarrolla un módulo de Python que funciona como un Framework, el cual es capaz de identificar la complejidad textual de textos en español, ya sea con el mejor modelo de Machine Learning utilizado en el presente proyecto o utilizando uno provisto por el usuario de la herramienta.spaPontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/2.5/pe/AlgoritmosAprendizaje automático (Inteligencia artificial)Inteligencia artificialhttps://purl.org/pe-repo/ocde/ford#1.02.00Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learninginfo:eu-repo/semantics/bachelorThesisreponame:PUCP-Tesisinstname:Pontificia Universidad Católica del Perúinstacron:PUCPSUNEDUIngeniero InformáticoTítulo ProfesionalPontificia Universidad Católica del Perú. Facultad de Ciencias e IngenieríaIngeniería Informática29561260https://orcid.org/0000-0002-0173-414072191674612286Hirsh Martinez, LaylaBeltran Castañon, Cesar ArmandoCueva Moscoso, Ronyhttps://purl.org/pe-repo/renati/level#tituloProfesionalhttps://purl.org/pe-repo/renati/type#tesisORIGINALMATOS_RIOS_HANS_DESARROLLO_FRAMEWORK_IDENTIFICACION.pdfMATOS_RIOS_HANS_DESARROLLO_FRAMEWORK_IDENTIFICACION.pdfTexto completoapplication/pdf1534018https://tesis.pucp.edu.pe/bitstreams/a6a4e0b3-4a01-43f1-8b8f-b042652b2ec9/download5a8539dedc0b2f228a58292402789789MD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81037https://tesis.pucp.edu.pe/bitstreams/d1d88f76-91dc-471c-abf3-b42e604d98ca/download8fc46f5e71650fd7adee84a69b9163c2MD52falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://tesis.pucp.edu.pe/bitstreams/1d8f84b7-81f8-4416-a5dd-d5cff20d9c4d/download8a4605be74aa9ea9d79846c1fba20a33MD53falseAnonymousREADTHUMBNAILMATOS_RIOS_HANS_DESARROLLO_FRAMEWORK_IDENTIFICACION.pdf.jpgMATOS_RIOS_HANS_DESARROLLO_FRAMEWORK_IDENTIFICACION.pdf.jpgIM Thumbnailimage/jpeg21166https://tesis.pucp.edu.pe/bitstreams/f500160c-6c2d-4fd9-b0c9-57f6322c7e16/download344b12b9c195d17566c705bd4ca2f450MD54falseAnonymousREADTEXTMATOS_RIOS_HANS_DESARROLLO_FRAMEWORK_IDENTIFICACION.pdf.txtMATOS_RIOS_HANS_DESARROLLO_FRAMEWORK_IDENTIFICACION.pdf.txtExtracted texttext/plain224139https://tesis.pucp.edu.pe/bitstreams/493efb4d-1f88-49fb-9f60-11bbbf9e7242/download6f7ace48dcdf62942b28c46ad563807dMD55falseAnonymousREAD20.500.12404/21844oai:tesis.pucp.edu.pe:20.500.12404/218442025-03-04 23:51:58.716http://creativecommons.org/licenses/by-nc-sa/2.5/pe/info:eu-repo/semantics/openAccessopen.accesshttps://tesis.pucp.edu.peRepositorio de Tesis PUCPraul.sifuentes@pucp.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=
score	13.922664

Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learning

Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).

Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learning

Descripción del Articulo

Ejemplares Similares