Minería web de textos en lenguas indígenas para desarrollar tecnologías de lenguaje. Caso de estudio: quechua sureño

Descripción del Articulo

En la actualidad, para los más de 30 millones de peruanos, la información a la que accedemos se encuentra mayormente en el idioma español. Sin embargo Perú es un país multilingüe, posee una gran riqueza cultural y lingüística con alrededor de 47 lenguas originarias. Para esta población encontrar tex...

Descripción completa

Detalles Bibliográficos
Autor: Ubaldo Gamarra, Victoria Alejandra
Formato: tesis de maestría
Fecha de Publicación:2022
Institución:Pontificia Universidad Católica del Perú
Repositorio:PUCP-Tesis
Lenguaje:español
OAI Identifier:oai:tesis.pucp.edu.pe:20.500.12404/23751
Enlace del recurso:http://hdl.handle.net/20.500.12404/23751
Nivel de acceso:acceso abierto
Materia:Inteligencia artificial
Redes neuronales (Computación)
Minería de datos
Quechua--Perú
https://purl.org/pe-repo/ocde/ford#1.02.00
id PUCP_27bcac1ee700d636b5bfe503f66146c7
oai_identifier_str oai:tesis.pucp.edu.pe:20.500.12404/23751
network_acronym_str PUCP
network_name_str PUCP-Tesis
repository_id_str .
dc.title.es_ES.fl_str_mv Minería web de textos en lenguas indígenas para desarrollar tecnologías de lenguaje. Caso de estudio: quechua sureño
title Minería web de textos en lenguas indígenas para desarrollar tecnologías de lenguaje. Caso de estudio: quechua sureño
spellingShingle Minería web de textos en lenguas indígenas para desarrollar tecnologías de lenguaje. Caso de estudio: quechua sureño
Ubaldo Gamarra, Victoria Alejandra
Inteligencia artificial
Redes neuronales (Computación)
Minería de datos
Quechua--Perú
https://purl.org/pe-repo/ocde/ford#1.02.00
title_short Minería web de textos en lenguas indígenas para desarrollar tecnologías de lenguaje. Caso de estudio: quechua sureño
title_full Minería web de textos en lenguas indígenas para desarrollar tecnologías de lenguaje. Caso de estudio: quechua sureño
title_fullStr Minería web de textos en lenguas indígenas para desarrollar tecnologías de lenguaje. Caso de estudio: quechua sureño
title_full_unstemmed Minería web de textos en lenguas indígenas para desarrollar tecnologías de lenguaje. Caso de estudio: quechua sureño
title_sort Minería web de textos en lenguas indígenas para desarrollar tecnologías de lenguaje. Caso de estudio: quechua sureño
author Ubaldo Gamarra, Victoria Alejandra
author_facet Ubaldo Gamarra, Victoria Alejandra
author_role author
dc.contributor.advisor.fl_str_mv Oncevay Marcos, Felix Arturo
dc.contributor.author.fl_str_mv Ubaldo Gamarra, Victoria Alejandra
dc.subject.es_ES.fl_str_mv Inteligencia artificial
Redes neuronales (Computación)
Minería de datos
Quechua--Perú
topic Inteligencia artificial
Redes neuronales (Computación)
Minería de datos
Quechua--Perú
https://purl.org/pe-repo/ocde/ford#1.02.00
dc.subject.ocde.es_ES.fl_str_mv https://purl.org/pe-repo/ocde/ford#1.02.00
description En la actualidad, para los más de 30 millones de peruanos, la información a la que accedemos se encuentra mayormente en el idioma español. Sin embargo Perú es un país multilingüe, posee una gran riqueza cultural y lingüística con alrededor de 47 lenguas originarias. Para esta población encontrar textos, noticias y contenido en internet en su lengua nativa es una tarea complicada. Existe un limitado acceso a información como lecturas, textos, noticias u otros contenidos que en modalidad digital es muy escaso. Esto se debe a que los pocos ciudadanos que se comunican en lenguas nativas son de manera oral y algunos hacen uso del español sobre sus lenguas nativas. De ese modo, existen investigaciones en el campo de la inteligencia artificial donde a partir del poco material digital recolectado de lenguas nativas se construyeron corpus digitales para tareas de traducción automática y detección del lenguaje. Sin embargo, aún son corpus pequeños para elaborar traductores de calidad, presentan complicaciones en traducir textos completos, y además díficil el aprendizaje con algoritmos complejos, como redes neuronales profundas. Por este motivo se propone realizar una minería web de textos en la lengua originaria quechua sureño para incrementar la cantidad de oraciones y diversidad de dominios, evaluar la calidad de los nuevos textos en un modelo de traducción automática de quechua a español, y desarrollar una web de libre acceso de consulta al corpus creado.
publishDate 2022
dc.date.accessioned.none.fl_str_mv 2022-11-09T19:30:56Z
dc.date.available.none.fl_str_mv 2022-11-09T19:30:56Z
dc.date.created.none.fl_str_mv 2022
dc.date.issued.fl_str_mv 2022-11-09
dc.type.es_ES.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12404/23751
url http://hdl.handle.net/20.500.12404/23751
dc.language.iso.es_ES.fl_str_mv spa
language spa
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.es_ES.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-sa/2.5/pe/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-sa/2.5/pe/
dc.publisher.es_ES.fl_str_mv Pontificia Universidad Católica del Perú
dc.publisher.country.es_ES.fl_str_mv PE
dc.source.none.fl_str_mv reponame:PUCP-Tesis
instname:Pontificia Universidad Católica del Perú
instacron:PUCP
instname_str Pontificia Universidad Católica del Perú
instacron_str PUCP
institution PUCP
reponame_str PUCP-Tesis
collection PUCP-Tesis
bitstream.url.fl_str_mv https://tesis.pucp.edu.pe/bitstreams/66e173d6-a53d-4cbf-8831-8eff87b8fd4a/download
https://tesis.pucp.edu.pe/bitstreams/f2957ec6-b9c9-4a59-9a8d-97a4703b1cfd/download
https://tesis.pucp.edu.pe/bitstreams/c4fdebfa-64a6-4089-b710-d8e354c6e3ec/download
https://tesis.pucp.edu.pe/bitstreams/ba6a9c0d-51e6-47fd-82ad-8d3f3e9af3fa/download
bitstream.checksum.fl_str_mv 9a0adaa66f5330f7deea0dd3dbf12c8f
b7a36ada981bb81cbd668e3fd4618f2a
8a4605be74aa9ea9d79846c1fba20a33
d94443de2e5cceb8a1151d04eeb99b41
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio de Tesis PUCP
repository.mail.fl_str_mv raul.sifuentes@pucp.pe
_version_ 1834737073412636672
spelling Oncevay Marcos, Felix ArturoUbaldo Gamarra, Victoria Alejandra2022-11-09T19:30:56Z2022-11-09T19:30:56Z20222022-11-09http://hdl.handle.net/20.500.12404/23751En la actualidad, para los más de 30 millones de peruanos, la información a la que accedemos se encuentra mayormente en el idioma español. Sin embargo Perú es un país multilingüe, posee una gran riqueza cultural y lingüística con alrededor de 47 lenguas originarias. Para esta población encontrar textos, noticias y contenido en internet en su lengua nativa es una tarea complicada. Existe un limitado acceso a información como lecturas, textos, noticias u otros contenidos que en modalidad digital es muy escaso. Esto se debe a que los pocos ciudadanos que se comunican en lenguas nativas son de manera oral y algunos hacen uso del español sobre sus lenguas nativas. De ese modo, existen investigaciones en el campo de la inteligencia artificial donde a partir del poco material digital recolectado de lenguas nativas se construyeron corpus digitales para tareas de traducción automática y detección del lenguaje. Sin embargo, aún son corpus pequeños para elaborar traductores de calidad, presentan complicaciones en traducir textos completos, y además díficil el aprendizaje con algoritmos complejos, como redes neuronales profundas. Por este motivo se propone realizar una minería web de textos en la lengua originaria quechua sureño para incrementar la cantidad de oraciones y diversidad de dominios, evaluar la calidad de los nuevos textos en un modelo de traducción automática de quechua a español, y desarrollar una web de libre acceso de consulta al corpus creado.spaPontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-sa/2.5/pe/Inteligencia artificialRedes neuronales (Computación)Minería de datosQuechua--Perúhttps://purl.org/pe-repo/ocde/ford#1.02.00Minería web de textos en lenguas indígenas para desarrollar tecnologías de lenguaje. Caso de estudio: quechua sureñoinfo:eu-repo/semantics/masterThesisreponame:PUCP-Tesisinstname:Pontificia Universidad Católica del Perúinstacron:PUCPSUNEDUMaestro en Informática con mención en Ciencias de la ComputaciónMaestríaPontificia Universidad Católica del Perú. Escuela de Posgrado.Informática con mención en Ciencias de la Computación46440101https://orcid.org/0000-0001-7675-620870808752611087Gomez Montoya, Hector ErasmoOncevay Marcos, Felix ArturoAyma Quirita, Victor Andreshttps://purl.org/pe-repo/renati/level#maestrohttps://purl.org/pe-repo/renati/type#tesisORIGINALUBALDO_GAMARRA_VICTORIA_MINERIA_WEB_TEXTOS.pdfUBALDO_GAMARRA_VICTORIA_MINERIA_WEB_TEXTOS.pdfTexto completoapplication/pdf667311https://tesis.pucp.edu.pe/bitstreams/66e173d6-a53d-4cbf-8831-8eff87b8fd4a/download9a0adaa66f5330f7deea0dd3dbf12c8fMD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81031https://tesis.pucp.edu.pe/bitstreams/f2957ec6-b9c9-4a59-9a8d-97a4703b1cfd/downloadb7a36ada981bb81cbd668e3fd4618f2aMD52falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://tesis.pucp.edu.pe/bitstreams/c4fdebfa-64a6-4089-b710-d8e354c6e3ec/download8a4605be74aa9ea9d79846c1fba20a33MD53falseAnonymousREADTHUMBNAILUBALDO_GAMARRA_VICTORIA_MINERIA_WEB_TEXTOS.pdf.jpgUBALDO_GAMARRA_VICTORIA_MINERIA_WEB_TEXTOS.pdf.jpgIM Thumbnailimage/jpeg12768https://tesis.pucp.edu.pe/bitstreams/ba6a9c0d-51e6-47fd-82ad-8d3f3e9af3fa/downloadd94443de2e5cceb8a1151d04eeb99b41MD54falseAnonymousREAD20.500.12404/23751oai:tesis.pucp.edu.pe:20.500.12404/237512024-05-29 10:11:52.037http://creativecommons.org/licenses/by-sa/2.5/pe/info:eu-repo/semantics/openAccessopen.accesshttps://tesis.pucp.edu.peRepositorio de Tesis PUCPraul.sifuentes@pucp.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=
score 13.922529
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).