Minería web de textos en lenguas indígenas para desarrollar tecnologías de lenguaje. Caso de estudio: quechua sureño
Descripción del Articulo
En la actualidad, para los más de 30 millones de peruanos, la información a la que accedemos se encuentra mayormente en el idioma español. Sin embargo Perú es un país multilingüe, posee una gran riqueza cultural y lingüística con alrededor de 47 lenguas originarias. Para esta población encontrar tex...
| Autor: | |
|---|---|
| Formato: | tesis de maestría |
| Fecha de Publicación: | 2022 |
| Institución: | Pontificia Universidad Católica del Perú |
| Repositorio: | PUCP-Tesis |
| Lenguaje: | español |
| OAI Identifier: | oai:tesis.pucp.edu.pe:20.500.12404/23751 |
| Enlace del recurso: | http://hdl.handle.net/20.500.12404/23751 |
| Nivel de acceso: | acceso abierto |
| Materia: | Inteligencia artificial Redes neuronales (Computación) Minería de datos Quechua--Perú https://purl.org/pe-repo/ocde/ford#1.02.00 |
| id |
PUCP_27bcac1ee700d636b5bfe503f66146c7 |
|---|---|
| oai_identifier_str |
oai:tesis.pucp.edu.pe:20.500.12404/23751 |
| network_acronym_str |
PUCP |
| network_name_str |
PUCP-Tesis |
| repository_id_str |
. |
| dc.title.es_ES.fl_str_mv |
Minería web de textos en lenguas indígenas para desarrollar tecnologías de lenguaje. Caso de estudio: quechua sureño |
| title |
Minería web de textos en lenguas indígenas para desarrollar tecnologías de lenguaje. Caso de estudio: quechua sureño |
| spellingShingle |
Minería web de textos en lenguas indígenas para desarrollar tecnologías de lenguaje. Caso de estudio: quechua sureño Ubaldo Gamarra, Victoria Alejandra Inteligencia artificial Redes neuronales (Computación) Minería de datos Quechua--Perú https://purl.org/pe-repo/ocde/ford#1.02.00 |
| title_short |
Minería web de textos en lenguas indígenas para desarrollar tecnologías de lenguaje. Caso de estudio: quechua sureño |
| title_full |
Minería web de textos en lenguas indígenas para desarrollar tecnologías de lenguaje. Caso de estudio: quechua sureño |
| title_fullStr |
Minería web de textos en lenguas indígenas para desarrollar tecnologías de lenguaje. Caso de estudio: quechua sureño |
| title_full_unstemmed |
Minería web de textos en lenguas indígenas para desarrollar tecnologías de lenguaje. Caso de estudio: quechua sureño |
| title_sort |
Minería web de textos en lenguas indígenas para desarrollar tecnologías de lenguaje. Caso de estudio: quechua sureño |
| author |
Ubaldo Gamarra, Victoria Alejandra |
| author_facet |
Ubaldo Gamarra, Victoria Alejandra |
| author_role |
author |
| dc.contributor.advisor.fl_str_mv |
Oncevay Marcos, Felix Arturo |
| dc.contributor.author.fl_str_mv |
Ubaldo Gamarra, Victoria Alejandra |
| dc.subject.es_ES.fl_str_mv |
Inteligencia artificial Redes neuronales (Computación) Minería de datos Quechua--Perú |
| topic |
Inteligencia artificial Redes neuronales (Computación) Minería de datos Quechua--Perú https://purl.org/pe-repo/ocde/ford#1.02.00 |
| dc.subject.ocde.es_ES.fl_str_mv |
https://purl.org/pe-repo/ocde/ford#1.02.00 |
| description |
En la actualidad, para los más de 30 millones de peruanos, la información a la que accedemos se encuentra mayormente en el idioma español. Sin embargo Perú es un país multilingüe, posee una gran riqueza cultural y lingüística con alrededor de 47 lenguas originarias. Para esta población encontrar textos, noticias y contenido en internet en su lengua nativa es una tarea complicada. Existe un limitado acceso a información como lecturas, textos, noticias u otros contenidos que en modalidad digital es muy escaso. Esto se debe a que los pocos ciudadanos que se comunican en lenguas nativas son de manera oral y algunos hacen uso del español sobre sus lenguas nativas. De ese modo, existen investigaciones en el campo de la inteligencia artificial donde a partir del poco material digital recolectado de lenguas nativas se construyeron corpus digitales para tareas de traducción automática y detección del lenguaje. Sin embargo, aún son corpus pequeños para elaborar traductores de calidad, presentan complicaciones en traducir textos completos, y además díficil el aprendizaje con algoritmos complejos, como redes neuronales profundas. Por este motivo se propone realizar una minería web de textos en la lengua originaria quechua sureño para incrementar la cantidad de oraciones y diversidad de dominios, evaluar la calidad de los nuevos textos en un modelo de traducción automática de quechua a español, y desarrollar una web de libre acceso de consulta al corpus creado. |
| publishDate |
2022 |
| dc.date.accessioned.none.fl_str_mv |
2022-11-09T19:30:56Z |
| dc.date.available.none.fl_str_mv |
2022-11-09T19:30:56Z |
| dc.date.created.none.fl_str_mv |
2022 |
| dc.date.issued.fl_str_mv |
2022-11-09 |
| dc.type.es_ES.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/20.500.12404/23751 |
| url |
http://hdl.handle.net/20.500.12404/23751 |
| dc.language.iso.es_ES.fl_str_mv |
spa |
| language |
spa |
| dc.relation.ispartof.fl_str_mv |
SUNEDU |
| dc.rights.es_ES.fl_str_mv |
info:eu-repo/semantics/openAccess |
| dc.rights.uri.*.fl_str_mv |
http://creativecommons.org/licenses/by-sa/2.5/pe/ |
| eu_rights_str_mv |
openAccess |
| rights_invalid_str_mv |
http://creativecommons.org/licenses/by-sa/2.5/pe/ |
| dc.publisher.es_ES.fl_str_mv |
Pontificia Universidad Católica del Perú |
| dc.publisher.country.es_ES.fl_str_mv |
PE |
| dc.source.none.fl_str_mv |
reponame:PUCP-Tesis instname:Pontificia Universidad Católica del Perú instacron:PUCP |
| instname_str |
Pontificia Universidad Católica del Perú |
| instacron_str |
PUCP |
| institution |
PUCP |
| reponame_str |
PUCP-Tesis |
| collection |
PUCP-Tesis |
| bitstream.url.fl_str_mv |
https://tesis.pucp.edu.pe/bitstreams/66e173d6-a53d-4cbf-8831-8eff87b8fd4a/download https://tesis.pucp.edu.pe/bitstreams/f2957ec6-b9c9-4a59-9a8d-97a4703b1cfd/download https://tesis.pucp.edu.pe/bitstreams/c4fdebfa-64a6-4089-b710-d8e354c6e3ec/download https://tesis.pucp.edu.pe/bitstreams/ba6a9c0d-51e6-47fd-82ad-8d3f3e9af3fa/download |
| bitstream.checksum.fl_str_mv |
9a0adaa66f5330f7deea0dd3dbf12c8f b7a36ada981bb81cbd668e3fd4618f2a 8a4605be74aa9ea9d79846c1fba20a33 d94443de2e5cceb8a1151d04eeb99b41 |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositorio de Tesis PUCP |
| repository.mail.fl_str_mv |
raul.sifuentes@pucp.pe |
| _version_ |
1834737073412636672 |
| spelling |
Oncevay Marcos, Felix ArturoUbaldo Gamarra, Victoria Alejandra2022-11-09T19:30:56Z2022-11-09T19:30:56Z20222022-11-09http://hdl.handle.net/20.500.12404/23751En la actualidad, para los más de 30 millones de peruanos, la información a la que accedemos se encuentra mayormente en el idioma español. Sin embargo Perú es un país multilingüe, posee una gran riqueza cultural y lingüística con alrededor de 47 lenguas originarias. Para esta población encontrar textos, noticias y contenido en internet en su lengua nativa es una tarea complicada. Existe un limitado acceso a información como lecturas, textos, noticias u otros contenidos que en modalidad digital es muy escaso. Esto se debe a que los pocos ciudadanos que se comunican en lenguas nativas son de manera oral y algunos hacen uso del español sobre sus lenguas nativas. De ese modo, existen investigaciones en el campo de la inteligencia artificial donde a partir del poco material digital recolectado de lenguas nativas se construyeron corpus digitales para tareas de traducción automática y detección del lenguaje. Sin embargo, aún son corpus pequeños para elaborar traductores de calidad, presentan complicaciones en traducir textos completos, y además díficil el aprendizaje con algoritmos complejos, como redes neuronales profundas. Por este motivo se propone realizar una minería web de textos en la lengua originaria quechua sureño para incrementar la cantidad de oraciones y diversidad de dominios, evaluar la calidad de los nuevos textos en un modelo de traducción automática de quechua a español, y desarrollar una web de libre acceso de consulta al corpus creado.spaPontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-sa/2.5/pe/Inteligencia artificialRedes neuronales (Computación)Minería de datosQuechua--Perúhttps://purl.org/pe-repo/ocde/ford#1.02.00Minería web de textos en lenguas indígenas para desarrollar tecnologías de lenguaje. Caso de estudio: quechua sureñoinfo:eu-repo/semantics/masterThesisreponame:PUCP-Tesisinstname:Pontificia Universidad Católica del Perúinstacron:PUCPSUNEDUMaestro en Informática con mención en Ciencias de la ComputaciónMaestríaPontificia Universidad Católica del Perú. Escuela de Posgrado.Informática con mención en Ciencias de la Computación46440101https://orcid.org/0000-0001-7675-620870808752611087Gomez Montoya, Hector ErasmoOncevay Marcos, Felix ArturoAyma Quirita, Victor Andreshttps://purl.org/pe-repo/renati/level#maestrohttps://purl.org/pe-repo/renati/type#tesisORIGINALUBALDO_GAMARRA_VICTORIA_MINERIA_WEB_TEXTOS.pdfUBALDO_GAMARRA_VICTORIA_MINERIA_WEB_TEXTOS.pdfTexto completoapplication/pdf667311https://tesis.pucp.edu.pe/bitstreams/66e173d6-a53d-4cbf-8831-8eff87b8fd4a/download9a0adaa66f5330f7deea0dd3dbf12c8fMD51trueAnonymousREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81031https://tesis.pucp.edu.pe/bitstreams/f2957ec6-b9c9-4a59-9a8d-97a4703b1cfd/downloadb7a36ada981bb81cbd668e3fd4618f2aMD52falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://tesis.pucp.edu.pe/bitstreams/c4fdebfa-64a6-4089-b710-d8e354c6e3ec/download8a4605be74aa9ea9d79846c1fba20a33MD53falseAnonymousREADTHUMBNAILUBALDO_GAMARRA_VICTORIA_MINERIA_WEB_TEXTOS.pdf.jpgUBALDO_GAMARRA_VICTORIA_MINERIA_WEB_TEXTOS.pdf.jpgIM Thumbnailimage/jpeg12768https://tesis.pucp.edu.pe/bitstreams/ba6a9c0d-51e6-47fd-82ad-8d3f3e9af3fa/downloadd94443de2e5cceb8a1151d04eeb99b41MD54falseAnonymousREAD20.500.12404/23751oai:tesis.pucp.edu.pe:20.500.12404/237512024-05-29 10:11:52.037http://creativecommons.org/licenses/by-sa/2.5/pe/info:eu-repo/semantics/openAccessopen.accesshttps://tesis.pucp.edu.peRepositorio de Tesis PUCPraul.sifuentes@pucp.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |
| score |
13.922529 |
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).