Generación automática de un corpus de comprensión lectora para el español a partir de un conjunto de datos en lengua inglesa

Descripción del Articulo

Desde la aparición del computador, la comprensión lectora automática ha sido un tema de interés científico, resultando en diversas investigaciones y técnicas que le permitan a una máquina “comprender” diversos textos. La introducción del aprendizaje de máquina originó un gran cambio en este ámbito d...

Descripción completa

Detalles Bibliográficos
Autor: Monsalve Escudero, Fabricio Andrés
Formato: tesis de grado
Fecha de Publicación:2019
Institución:Pontificia Universidad Católica del Perú
Repositorio:PUCP-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.pucp.edu.pe:20.500.14657/167941
Enlace del recurso:http://hdl.handle.net/20.500.12404/14894
Nivel de acceso:acceso abierto
Materia:Traducción automática
Lectura--Enseñanza con ayuda de computadoras
Procesamiento de lenguaje natural (Computación)
https://purl.org/pe-repo/ocde/ford#1.02.00
id RPUC_6730d1bbe10181b6865362d5f033af9a
oai_identifier_str oai:repositorio.pucp.edu.pe:20.500.14657/167941
network_acronym_str RPUC
network_name_str PUCP-Institucional
repository_id_str 2905
dc.title.es_ES.fl_str_mv Generación automática de un corpus de comprensión lectora para el español a partir de un conjunto de datos en lengua inglesa
title Generación automática de un corpus de comprensión lectora para el español a partir de un conjunto de datos en lengua inglesa
spellingShingle Generación automática de un corpus de comprensión lectora para el español a partir de un conjunto de datos en lengua inglesa
Monsalve Escudero, Fabricio Andrés
Traducción automática
Lectura--Enseñanza con ayuda de computadoras
Procesamiento de lenguaje natural (Computación)
https://purl.org/pe-repo/ocde/ford#1.02.00
title_short Generación automática de un corpus de comprensión lectora para el español a partir de un conjunto de datos en lengua inglesa
title_full Generación automática de un corpus de comprensión lectora para el español a partir de un conjunto de datos en lengua inglesa
title_fullStr Generación automática de un corpus de comprensión lectora para el español a partir de un conjunto de datos en lengua inglesa
title_full_unstemmed Generación automática de un corpus de comprensión lectora para el español a partir de un conjunto de datos en lengua inglesa
title_sort Generación automática de un corpus de comprensión lectora para el español a partir de un conjunto de datos en lengua inglesa
author Monsalve Escudero, Fabricio Andrés
author_facet Monsalve Escudero, Fabricio Andrés
author_role author
dc.contributor.advisor.fl_str_mv Oncevay Marcos, Félix Arturo
dc.contributor.author.fl_str_mv Monsalve Escudero, Fabricio Andrés
dc.subject.es_ES.fl_str_mv Traducción automática
Lectura--Enseñanza con ayuda de computadoras
Procesamiento de lenguaje natural (Computación)
topic Traducción automática
Lectura--Enseñanza con ayuda de computadoras
Procesamiento de lenguaje natural (Computación)
https://purl.org/pe-repo/ocde/ford#1.02.00
dc.subject.ocde.es_ES.fl_str_mv https://purl.org/pe-repo/ocde/ford#1.02.00
description Desde la aparición del computador, la comprensión lectora automática ha sido un tema de interés científico, resultando en diversas investigaciones y técnicas que le permitan a una máquina “comprender” diversos textos. La introducción del aprendizaje de máquina originó un gran cambio en este ámbito de estudio. Esto debido a que mientras los algoritmos de aprendizaje de máquina y procesamiento de lenguaje natural iban evolucionando, se necesitaba mayores cantidades de datos o ejemplos para poder aprender correctamente. Este problema fue abordado por varios estudios científicos, dando origen a un grupo significativo de conjuntos de datos enfocados a distintos tipos de comprensión lectora. Sin embargo, estos conjuntos de datos fueron creados solo para el idioma inglés ya que, hasta la actualidad, los trabajos relacionados a este ámbito se desarrollan en ese idioma. Por ello, hay pocas investigaciones enfocadas en comprensión lectora para otros idiomas como el español, ya que la creación de los conjuntos de datos necesarios demanda una gran cantidad de recursos (horas-hombre de expertos) para lograr un resultado de calidad, lo que hace muy costoso este objetivo. Por lo tanto, se propone una solución de menor costo, apoyándonos en la traducción y validación automática de un conjunto de datos de inglés a español. Específicamente, el conjunto de datos Stanford Question Answering Dataset (SQuAD), desarrollado por la Universidad de Stanford para la tarea de comprensión de lectura en inglés, cuenta con más de 100,000 pares de preguntas-respuestas planteadas sobre múltiples artículos de Wikipedia, y donde la respuesta a cada pregunta es un segmento de texto contenido explícitamente en los párrafos del artículo. Para lograr este objetivo, se usarán modelos de traducción automática y métricas de validación automática para traducción, para consecuentemente poder entrenar un modelo algorítmico de comprensión lectora en español, el cual podría permitir alcanzar los resultados del estado del arte para el inglés. Posteriormente, se desarrollará una interfaz de programación de aplicaciones (API), la cual servirá para la presentación de los resultados obtenidos. Esta solución representa un desafío computacional e informático debido al gran volumen de datos a tratar, para lo cual se deben realizar procesos eficientes y una correcta utilización de recursos, manteniendo así la viabilidad del proyecto. Asimismo, el uso y aplicación de los resultados obtenidos en este proyecto es de gran variedad, ya que, a partir del entrenamiento de un modelo algorítmico de comprensión lectora, se puede aplicar en sistemas de extracción de información, sistemas de tutoría inteligente, preguntas frecuentes, entre otros. Además, este proyecto busca dejar un precedente y brindar un punto de partida en futuras investigaciones sobre generación automática de conjuntos de datos para comprensión lectora en español, utilizando un enfoque en aprendizaje de máquina y procesamiento de lenguaje natural.
publishDate 2019
dc.date.accessioned.es_ES.fl_str_mv 2019-09-02T19:55:17Z
dc.date.available.es_ES.fl_str_mv 2019-09-02T19:55:17Z
dc.date.created.es_ES.fl_str_mv 2019
dc.date.issued.fl_str_mv 2019-09-02
dc.type.es_ES.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.other.none.fl_str_mv Tesis de licenciatura
format bachelorThesis
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12404/14894
url http://hdl.handle.net/20.500.12404/14894
dc.language.iso.es_ES.fl_str_mv spa
language spa
dc.rights.es_ES.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc/2.5/pe/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc/2.5/pe/
dc.publisher.es_ES.fl_str_mv Pontificia Universidad Católica del Perú
dc.publisher.country.es_ES.fl_str_mv PE
dc.source.none.fl_str_mv reponame:PUCP-Institucional
instname:Pontificia Universidad Católica del Perú
instacron:PUCP
instname_str Pontificia Universidad Católica del Perú
instacron_str PUCP
institution PUCP
reponame_str PUCP-Institucional
collection PUCP-Institucional
repository.name.fl_str_mv Repositorio Institucional de la PUCP
repository.mail.fl_str_mv repositorio@pucp.pe
_version_ 1835639314985254912
spelling Oncevay Marcos, Félix ArturoMonsalve Escudero, Fabricio Andrés2019-09-02T19:55:17Z2019-09-02T19:55:17Z20192019-09-02http://hdl.handle.net/20.500.12404/14894Desde la aparición del computador, la comprensión lectora automática ha sido un tema de interés científico, resultando en diversas investigaciones y técnicas que le permitan a una máquina “comprender” diversos textos. La introducción del aprendizaje de máquina originó un gran cambio en este ámbito de estudio. Esto debido a que mientras los algoritmos de aprendizaje de máquina y procesamiento de lenguaje natural iban evolucionando, se necesitaba mayores cantidades de datos o ejemplos para poder aprender correctamente. Este problema fue abordado por varios estudios científicos, dando origen a un grupo significativo de conjuntos de datos enfocados a distintos tipos de comprensión lectora. Sin embargo, estos conjuntos de datos fueron creados solo para el idioma inglés ya que, hasta la actualidad, los trabajos relacionados a este ámbito se desarrollan en ese idioma. Por ello, hay pocas investigaciones enfocadas en comprensión lectora para otros idiomas como el español, ya que la creación de los conjuntos de datos necesarios demanda una gran cantidad de recursos (horas-hombre de expertos) para lograr un resultado de calidad, lo que hace muy costoso este objetivo. Por lo tanto, se propone una solución de menor costo, apoyándonos en la traducción y validación automática de un conjunto de datos de inglés a español. Específicamente, el conjunto de datos Stanford Question Answering Dataset (SQuAD), desarrollado por la Universidad de Stanford para la tarea de comprensión de lectura en inglés, cuenta con más de 100,000 pares de preguntas-respuestas planteadas sobre múltiples artículos de Wikipedia, y donde la respuesta a cada pregunta es un segmento de texto contenido explícitamente en los párrafos del artículo. Para lograr este objetivo, se usarán modelos de traducción automática y métricas de validación automática para traducción, para consecuentemente poder entrenar un modelo algorítmico de comprensión lectora en español, el cual podría permitir alcanzar los resultados del estado del arte para el inglés. Posteriormente, se desarrollará una interfaz de programación de aplicaciones (API), la cual servirá para la presentación de los resultados obtenidos. Esta solución representa un desafío computacional e informático debido al gran volumen de datos a tratar, para lo cual se deben realizar procesos eficientes y una correcta utilización de recursos, manteniendo así la viabilidad del proyecto. Asimismo, el uso y aplicación de los resultados obtenidos en este proyecto es de gran variedad, ya que, a partir del entrenamiento de un modelo algorítmico de comprensión lectora, se puede aplicar en sistemas de extracción de información, sistemas de tutoría inteligente, preguntas frecuentes, entre otros. Además, este proyecto busca dejar un precedente y brindar un punto de partida en futuras investigaciones sobre generación automática de conjuntos de datos para comprensión lectora en español, utilizando un enfoque en aprendizaje de máquina y procesamiento de lenguaje natural.spaPontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc/2.5/pe/Traducción automáticaLectura--Enseñanza con ayuda de computadorasProcesamiento de lenguaje natural (Computación)https://purl.org/pe-repo/ocde/ford#1.02.00Generación automática de un corpus de comprensión lectora para el español a partir de un conjunto de datos en lengua inglesainfo:eu-repo/semantics/bachelorThesisTesis de licenciaturareponame:PUCP-Institucionalinstname:Pontificia Universidad Católica del Perúinstacron:PUCPIngeniero InformáticoTítulo ProfesionalPontificia Universidad Católica del Perú. Facultad de Ciencias e IngenieríaIngeniería Informática46440101https://orcid.org/0000-0001-7675-6208612286https://purl.org/pe-repo/renati/level#tituloProfesionalhttps://purl.org/pe-repo/renati/type#tesis20.500.14657/167941oai:repositorio.pucp.edu.pe:20.500.14657/1679412024-07-08 09:21:50.811http://creativecommons.org/licenses/by-nc/2.5/pe/info:eu-repo/semantics/openAccessmetadata.onlyhttps://repositorio.pucp.edu.peRepositorio Institucional de la PUCPrepositorio@pucp.pe
score 13.958958
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).