Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learning
Descripción del Articulo
La generación de diálogo implica diseñar un programa para generar una conversación natural, esto requiere desarrollar algoritmos que puedan conversar con un ser humano y otro programa de manera coherente y fluida. Desarrollar una conversación también depende del contexto y conocimiento del interlocu...
| Autor: | |
|---|---|
| Formato: | tesis de grado |
| Fecha de Publicación: | 2022 |
| Institución: | Pontificia Universidad Católica del Perú |
| Repositorio: | PUCP-Tesis |
| Lenguaje: | español |
| OAI Identifier: | oai:tesis.pucp.edu.pe:20.500.12404/21844 |
| Enlace del recurso: | http://hdl.handle.net/20.500.12404/21844 |
| Nivel de acceso: | acceso abierto |
| Materia: | Algoritmos Aprendizaje automático (Inteligencia artificial) Inteligencia artificial https://purl.org/pe-repo/ocde/ford#1.02.00 |
| id |
PUCP_94768f1720480418b2fa473df474d422 |
|---|---|
| oai_identifier_str |
oai:tesis.pucp.edu.pe:20.500.12404/21844 |
| network_acronym_str |
PUCP |
| network_name_str |
PUCP-Tesis |
| repository_id_str |
. |
| dc.title.es_ES.fl_str_mv |
Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learning |
| title |
Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learning |
| spellingShingle |
Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learning Matos Rios, Hans Algoritmos Aprendizaje automático (Inteligencia artificial) Inteligencia artificial https://purl.org/pe-repo/ocde/ford#1.02.00 |
| title_short |
Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learning |
| title_full |
Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learning |
| title_fullStr |
Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learning |
| title_full_unstemmed |
Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learning |
| title_sort |
Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learning |
| author |
Matos Rios, Hans |
| author_facet |
Matos Rios, Hans |
| author_role |
author |
| dc.contributor.advisor.fl_str_mv |
Beltrán Castañón, César Armando |
| dc.contributor.author.fl_str_mv |
Matos Rios, Hans |
| dc.subject.es_ES.fl_str_mv |
Algoritmos Aprendizaje automático (Inteligencia artificial) Inteligencia artificial |
| topic |
Algoritmos Aprendizaje automático (Inteligencia artificial) Inteligencia artificial https://purl.org/pe-repo/ocde/ford#1.02.00 |
| dc.subject.ocde.es_ES.fl_str_mv |
https://purl.org/pe-repo/ocde/ford#1.02.00 |
| description |
La generación de diálogo implica diseñar un programa para generar una conversación natural, esto requiere desarrollar algoritmos que puedan conversar con un ser humano y otro programa de manera coherente y fluida. Desarrollar una conversación también depende del contexto y conocimiento del interlocutor, lo cual nos lleva a definir la existencia de niveles de complejidad conversacional, la cual se refiere a determinar que tan fácil o difícil de leer es un texto. En este aspecto, especialmente para el idioma español, no existe una herramienta que tenga un módulo propio que le permita clasificar textos en español por su complejidad textual. En el presente trabajo de fin de carrera se realiza el desarrollo de un módulo en el lenguaje de programación Python, el cual funciona como un Framework para identificar la complejidad textual de textos en español usando técnicas de Machine Learning. Para ello, en primer lugar, se implementaron 48 métricas de análisis de complejidad textual basadas en Coh-Metrix usando el lenguaje de programación Python. Dichas métricas convierten textos en español en datos numéricos con los cuales se entrenaron distintos modelos de Machine Learning, con el motivo de obtener el mejor modelo a utilizar con el Framework desarrollado, siendo este capaz de utilizar un modelo personalizado provisto por el usuario. Para ello, se necesitó obtener un corpus de 183 textos en español para realizar dicho entrenamiento, el cual fue obtenido al descargar textos educativos de nivel primaria y secundaria. Por último, se entrenó un chatbot con los textos obtenidos para el corpus, cuyas respuestas generadas fueron analizados con el Framework previamente desarrollado, identificando que el nivel de complejidad de dichas respuestas correspondía al nivel de los textos con los cuales el chatbot fue entrenado. En conclusión, en el presente proyecto de investigación se desarrolla un módulo de Python que funciona como un Framework, el cual es capaz de identificar la complejidad textual de textos en español, ya sea con el mejor modelo de Machine Learning utilizado en el presente proyecto o utilizando uno provisto por el usuario de la herramienta. |
| publishDate |
2022 |
| dc.date.accessioned.none.fl_str_mv |
2022-03-21T21:47:38Z |
| dc.date.available.none.fl_str_mv |
2022-03-21T21:47:38Z |
| dc.date.created.none.fl_str_mv |
2022 |
| dc.date.issued.fl_str_mv |
2022-03-21 |
| dc.type.es_ES.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
| format |
bachelorThesis |
| dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/20.500.12404/21844 |
| url |
http://hdl.handle.net/20.500.12404/21844 |
| dc.language.iso.es_ES.fl_str_mv |
spa |
| language |
spa |
| dc.relation.ispartof.fl_str_mv |
SUNEDU |
| dc.rights.es_ES.fl_str_mv |
info:eu-repo/semantics/openAccess |
| dc.rights.uri.*.fl_str_mv |
http://creativecommons.org/licenses/by-nc-sa/2.5/pe/ |
| eu_rights_str_mv |
openAccess |
| rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-sa/2.5/pe/ |
| dc.publisher.es_ES.fl_str_mv |
Pontificia Universidad Católica del Perú |
| dc.publisher.country.es_ES.fl_str_mv |
PE |
| dc.source.none.fl_str_mv |
reponame:PUCP-Tesis instname:Pontificia Universidad Católica del Perú instacron:PUCP |
| instname_str |
Pontificia Universidad Católica del Perú |
| instacron_str |
PUCP |
| institution |
PUCP |
| reponame_str |
PUCP-Tesis |
| collection |
PUCP-Tesis |
| bitstream.url.fl_str_mv |
https://tesis.pucp.edu.pe/bitstreams/a6a4e0b3-4a01-43f1-8b8f-b042652b2ec9/download https://tesis.pucp.edu.pe/bitstreams/d1d88f76-91dc-471c-abf3-b42e604d98ca/download https://tesis.pucp.edu.pe/bitstreams/1d8f84b7-81f8-4416-a5dd-d5cff20d9c4d/download https://tesis.pucp.edu.pe/bitstreams/f500160c-6c2d-4fd9-b0c9-57f6322c7e16/download https://tesis.pucp.edu.pe/bitstreams/493efb4d-1f88-49fb-9f60-11bbbf9e7242/download |
| bitstream.checksum.fl_str_mv |
5a8539dedc0b2f228a58292402789789 8fc46f5e71650fd7adee84a69b9163c2 8a4605be74aa9ea9d79846c1fba20a33 344b12b9c195d17566c705bd4ca2f450 6f7ace48dcdf62942b28c46ad563807d |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositorio de Tesis PUCP |
| repository.mail.fl_str_mv |
raul.sifuentes@pucp.pe |
| _version_ |
1834736833232109568 |
| spelling |
Beltrán Castañón, César ArmandoMatos Rios, Hans2022-03-21T21:47:38Z2022-03-21T21:47:38Z20222022-03-21http://hdl.handle.net/20.500.12404/21844La generación de diálogo implica diseñar un programa para generar una conversación natural, esto requiere desarrollar algoritmos que puedan conversar con un ser humano y otro programa de manera coherente y fluida. Desarrollar una conversación también depende del contexto y conocimiento del interlocutor, lo cual nos lleva a definir la existencia de niveles de complejidad conversacional, la cual se refiere a determinar que tan fácil o difícil de leer es un texto. En este aspecto, especialmente para el idioma español, no existe una herramienta que tenga un módulo propio que le permita clasificar textos en español por su complejidad textual. En el presente trabajo de fin de carrera se realiza el desarrollo de un módulo en el lenguaje de programación Python, el cual funciona como un Framework para identificar la complejidad textual de textos en español usando técnicas de Machine Learning. Para ello, en primer lugar, se implementaron 48 métricas de análisis de complejidad textual basadas en Coh-Metrix usando el lenguaje de programación Python. Dichas métricas convierten textos en español en datos numéricos con los cuales se entrenaron distintos modelos de Machine Learning, con el motivo de obtener el mejor modelo a utilizar con el Framework desarrollado, siendo este capaz de utilizar un modelo personalizado provisto por el usuario. Para ello, se necesitó obtener un corpus de 183 textos en español para realizar dicho entrenamiento, el cual fue obtenido al descargar textos educativos de nivel primaria y secundaria. Por último, se entrenó un chatbot con los textos obtenidos para el corpus, cuyas respuestas generadas fueron analizados con el Framework previamente desarrollado, identificando que el nivel de complejidad de dichas respuestas correspondía al nivel de los textos con los cuales el chatbot fue entrenado. En conclusión, en el presente proyecto de investigación se desarrolla un módulo de Python que funciona como un Framework, el cual es capaz de identificar la complejidad textual de textos en español, ya sea con el mejor modelo de Machine Learning utilizado en el presente proyecto o utilizando uno provisto por el usuario de la herramienta.spaPontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-sa/2.5/pe/AlgoritmosAprendizaje automático (Inteligencia artificial)Inteligencia artificialhttps://purl.org/pe-repo/ocde/ford#1.02.00Desarrollo de un Framework para la identificación del nivel de complejidad de texto para el entrenamiento de chatbots basado en Machine Learninginfo:eu-repo/semantics/bachelorThesisreponame:PUCP-Tesisinstname:Pontificia Universidad Católica del Perúinstacron:PUCPSUNEDUIngeniero InformáticoTítulo ProfesionalPontificia Universidad Católica del Perú. Facultad de Ciencias e IngenieríaIngeniería Informática29561260https://orcid.org/0000-0002-0173-414072191674612286Hirsh Martinez, LaylaBeltran Castañon, Cesar ArmandoCueva Moscoso, Ronyhttps://purl.org/pe-repo/renati/level#tituloProfesionalhttps://purl.org/pe-repo/renati/type#tesisORIGINALMATOS_RIOS_HANS_DESARROLLO_FRAMEWORK_IDENTIFICACION.pdfMATOS_RIOS_HANS_DESARROLLO_FRAMEWORK_IDENTIFICACION.pdfTexto completoapplication/pdf1534018https://tesis.pucp.edu.pe/bitstreams/a6a4e0b3-4a01-43f1-8b8f-b042652b2ec9/download5a8539dedc0b2f228a58292402789789MD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81037https://tesis.pucp.edu.pe/bitstreams/d1d88f76-91dc-471c-abf3-b42e604d98ca/download8fc46f5e71650fd7adee84a69b9163c2MD52falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://tesis.pucp.edu.pe/bitstreams/1d8f84b7-81f8-4416-a5dd-d5cff20d9c4d/download8a4605be74aa9ea9d79846c1fba20a33MD53falseAnonymousREADTHUMBNAILMATOS_RIOS_HANS_DESARROLLO_FRAMEWORK_IDENTIFICACION.pdf.jpgMATOS_RIOS_HANS_DESARROLLO_FRAMEWORK_IDENTIFICACION.pdf.jpgIM Thumbnailimage/jpeg21166https://tesis.pucp.edu.pe/bitstreams/f500160c-6c2d-4fd9-b0c9-57f6322c7e16/download344b12b9c195d17566c705bd4ca2f450MD54falseAnonymousREADTEXTMATOS_RIOS_HANS_DESARROLLO_FRAMEWORK_IDENTIFICACION.pdf.txtMATOS_RIOS_HANS_DESARROLLO_FRAMEWORK_IDENTIFICACION.pdf.txtExtracted texttext/plain224139https://tesis.pucp.edu.pe/bitstreams/493efb4d-1f88-49fb-9f60-11bbbf9e7242/download6f7ace48dcdf62942b28c46ad563807dMD55falseAnonymousREAD20.500.12404/21844oai:tesis.pucp.edu.pe:20.500.12404/218442025-03-04 23:51:58.716http://creativecommons.org/licenses/by-nc-sa/2.5/pe/info:eu-repo/semantics/openAccessopen.accesshttps://tesis.pucp.edu.peRepositorio de Tesis PUCPraul.sifuentes@pucp.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |
| score |
13.945474 |
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).