Extracción de textos escritos en lenguas nativas peruanas utilizando OCR
Descripción del Articulo
La incorporación de las lenguas minoritarias en el desarrollo de las tecnologías del lenguaje plantea un desafío debido a su limitada presencia digital y la prevalencia de recursos en formatos poco accesibles. Este trabajo aborda este problema mediante la digitalización de documentos antigüos escrit...
Autor: | |
---|---|
Formato: | tesis de maestría |
Fecha de Publicación: | 2024 |
Institución: | Pontificia Universidad Católica del Perú |
Repositorio: | PUCP-Tesis |
Lenguaje: | español |
OAI Identifier: | oai:tesis.pucp.edu.pe:20.500.12404/31148 |
Enlace del recurso: | http://hdl.handle.net/20.500.12404/31148 |
Nivel de acceso: | acceso embargado |
Materia: | Lenguas indigenas--Perú Reconocimiento óptico de caracteres Procesamiento de lenguaje natural (Computación) https://purl.org/pe-repo/ocde/ford#5.08.02 |
id |
PUCP_09e481a8366968c6a0d68e24c2581640 |
---|---|
oai_identifier_str |
oai:tesis.pucp.edu.pe:20.500.12404/31148 |
network_acronym_str |
PUCP |
network_name_str |
PUCP-Tesis |
repository_id_str |
. |
dc.title.none.fl_str_mv |
Extracción de textos escritos en lenguas nativas peruanas utilizando OCR |
title |
Extracción de textos escritos en lenguas nativas peruanas utilizando OCR |
spellingShingle |
Extracción de textos escritos en lenguas nativas peruanas utilizando OCR Sánchez Carrera, Shadya Nyzeth Lenguas indigenas--Perú Reconocimiento óptico de caracteres Procesamiento de lenguaje natural (Computación) https://purl.org/pe-repo/ocde/ford#5.08.02 |
title_short |
Extracción de textos escritos en lenguas nativas peruanas utilizando OCR |
title_full |
Extracción de textos escritos en lenguas nativas peruanas utilizando OCR |
title_fullStr |
Extracción de textos escritos en lenguas nativas peruanas utilizando OCR |
title_full_unstemmed |
Extracción de textos escritos en lenguas nativas peruanas utilizando OCR |
title_sort |
Extracción de textos escritos en lenguas nativas peruanas utilizando OCR |
author |
Sánchez Carrera, Shadya Nyzeth |
author_facet |
Sánchez Carrera, Shadya Nyzeth |
author_role |
author |
dc.contributor.advisor.fl_str_mv |
Oncevay Marcos, Félix Arturo |
dc.contributor.author.fl_str_mv |
Sánchez Carrera, Shadya Nyzeth |
dc.subject.none.fl_str_mv |
Lenguas indigenas--Perú Reconocimiento óptico de caracteres Procesamiento de lenguaje natural (Computación) |
topic |
Lenguas indigenas--Perú Reconocimiento óptico de caracteres Procesamiento de lenguaje natural (Computación) https://purl.org/pe-repo/ocde/ford#5.08.02 |
dc.subject.ocde.none.fl_str_mv |
https://purl.org/pe-repo/ocde/ford#5.08.02 |
description |
La incorporación de las lenguas minoritarias en el desarrollo de las tecnologías del lenguaje plantea un desafío debido a su limitada presencia digital y la prevalencia de recursos en formatos poco accesibles. Este trabajo aborda este problema mediante la digitalización de documentos antigüos escritos en cuatro lenguas nativas peruanas (Asháninka, Shipibo-Konibo, Yanesha y Yine), utilizando modelos de Reconocimiento Óptico de Caracteres (OCR) y aplicando métodos de corrección para minimizar los errores en la extracción de los textos. Las principales contribuciones de este estudio incluyen la creación de un conjunto de datos anotado con 454 imágenes de páginas escaneadas, el desarrollo de un módulo para corregir la alineación de las transcripciones generadas por los OCR y la implementación de una interfaz web para facilitar la búsqueda de textos dentro del conjunto de datos. |
publishDate |
2024 |
dc.date.created.none.fl_str_mv |
2024 |
dc.date.accessioned.none.fl_str_mv |
2025-07-01T19:45:17Z |
dc.date.issued.fl_str_mv |
2025-07-01 |
dc.type.none.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/20.500.12404/31148 |
url |
http://hdl.handle.net/20.500.12404/31148 |
dc.language.iso.none.fl_str_mv |
spa |
language |
spa |
dc.relation.ispartof.fl_str_mv |
SUNEDU |
dc.rights.none.fl_str_mv |
info:eu-repo/semantics/embargoedAccess |
dc.rights.uri.none.fl_str_mv |
http://creativecommons.org/licenses/by-nc/2.5/pe/ |
eu_rights_str_mv |
embargoedAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc/2.5/pe/ |
dc.publisher.es_ES.fl_str_mv |
Pontificia Universidad Católica del Perú |
dc.publisher.country.none.fl_str_mv |
PE |
dc.source.none.fl_str_mv |
reponame:PUCP-Tesis instname:Pontificia Universidad Católica del Perú instacron:PUCP |
instname_str |
Pontificia Universidad Católica del Perú |
instacron_str |
PUCP |
institution |
PUCP |
reponame_str |
PUCP-Tesis |
collection |
PUCP-Tesis |
bitstream.url.fl_str_mv |
https://tesis.pucp.edu.pe/bitstreams/452f700a-49cb-4dd9-a79f-34bb311e6ab7/download https://tesis.pucp.edu.pe/bitstreams/b7ccb2fa-7560-4697-b1fd-e3340af9522b/download https://tesis.pucp.edu.pe/bitstreams/b6775497-9055-4fd8-b905-8c3b36f1dd08/download https://tesis.pucp.edu.pe/bitstreams/30cb2bab-002e-4790-b676-9cc347d17165/download https://tesis.pucp.edu.pe/bitstreams/d24c6610-9463-4adf-b66c-4a4aa88a2f80/download https://tesis.pucp.edu.pe/bitstreams/8e7a904f-89c5-49bb-821f-37b6f61ee2a5/download https://tesis.pucp.edu.pe/bitstreams/347a05ec-7ff9-4bc9-9bfe-2aea9195e020/download https://tesis.pucp.edu.pe/bitstreams/5def2576-506e-486d-8285-63aa43720b11/download |
bitstream.checksum.fl_str_mv |
87f00a429a31e7a6862aee0cd7ed93e4 89e9c686e236790638a60eb78fcd9561 29566c19d6c029587e3c8492ea72c569 bb9bdc0b3349e4284e09149f943790b4 27aaa3c78a2932eaef6642a51612dc5c c7e9fb4fea8fb8f73066046f23d5a02b 53bcf12c517c52aa99a44b1851c34505 59896cf93c7bef17301146f401fcfcf5 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositorio de Tesis PUCP |
repository.mail.fl_str_mv |
raul.sifuentes@pucp.pe |
_version_ |
1837273482700783616 |
spelling |
Oncevay Marcos, Félix ArturoSánchez Carrera, Shadya Nyzeth2025-07-01T19:45:17Z20242025-07-01http://hdl.handle.net/20.500.12404/31148La incorporación de las lenguas minoritarias en el desarrollo de las tecnologías del lenguaje plantea un desafío debido a su limitada presencia digital y la prevalencia de recursos en formatos poco accesibles. Este trabajo aborda este problema mediante la digitalización de documentos antigüos escritos en cuatro lenguas nativas peruanas (Asháninka, Shipibo-Konibo, Yanesha y Yine), utilizando modelos de Reconocimiento Óptico de Caracteres (OCR) y aplicando métodos de corrección para minimizar los errores en la extracción de los textos. Las principales contribuciones de este estudio incluyen la creación de un conjunto de datos anotado con 454 imágenes de páginas escaneadas, el desarrollo de un módulo para corregir la alineación de las transcripciones generadas por los OCR y la implementación de una interfaz web para facilitar la búsqueda de textos dentro del conjunto de datos.spaPontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/embargoedAccesshttp://creativecommons.org/licenses/by-nc/2.5/pe/Lenguas indigenas--PerúReconocimiento óptico de caracteresProcesamiento de lenguaje natural (Computación)https://purl.org/pe-repo/ocde/ford#5.08.02Extracción de textos escritos en lenguas nativas peruanas utilizando OCRinfo:eu-repo/semantics/masterThesisreponame:PUCP-Tesisinstname:Pontificia Universidad Católica del Perúinstacron:PUCPSUNEDUMaestro en Informática con mención en Ciencias de la ComputaciónMaestríaPontificia Universidad Católica del Perú. Escuela de Posgrado.Informática con mención en Ciencias de la Computación46440101https://orcid.org/0000-0001-7675-620870169185611087Brossard Nuñez, Ian PaulOncevay Marcos, Felix ArturoSobrevilla Cabezudo, Marco Antoniohttps://purl.org/pe-repo/renati/level#maestrohttps://purl.org/pe-repo/renati/type#trabajoDeInvestigacionORIGINALSANCHEZ_CARRERA_SHADYA_NYZETH_EXTRACCION_TEXTOS.pdfSANCHEZ_CARRERA_SHADYA_NYZETH_EXTRACCION_TEXTOS.pdfTexto completoapplication/pdf563158https://tesis.pucp.edu.pe/bitstreams/452f700a-49cb-4dd9-a79f-34bb311e6ab7/download87f00a429a31e7a6862aee0cd7ed93e4MD51trueAnonymousREAD2026-07-30SANCHEZ_CARRERA_SHADYA_NYZETH_T.pdfSANCHEZ_CARRERA_SHADYA_NYZETH_T.pdfReporte de originalidadapplication/pdf2593291https://tesis.pucp.edu.pe/bitstreams/b7ccb2fa-7560-4697-b1fd-e3340af9522b/download89e9c686e236790638a60eb78fcd9561MD52falseAdministratorREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81031https://tesis.pucp.edu.pe/bitstreams/b6775497-9055-4fd8-b905-8c3b36f1dd08/download29566c19d6c029587e3c8492ea72c569MD53falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://tesis.pucp.edu.pe/bitstreams/30cb2bab-002e-4790-b676-9cc347d17165/downloadbb9bdc0b3349e4284e09149f943790b4MD54falseAnonymousREADTEXTSANCHEZ_CARRERA_SHADYA_NYZETH_EXTRACCION_TEXTOS.pdf.txtSANCHEZ_CARRERA_SHADYA_NYZETH_EXTRACCION_TEXTOS.pdf.txtExtracted texttext/plain41164https://tesis.pucp.edu.pe/bitstreams/d24c6610-9463-4adf-b66c-4a4aa88a2f80/download27aaa3c78a2932eaef6642a51612dc5cMD55falseAnonymousREAD2026-07-30SANCHEZ_CARRERA_SHADYA_NYZETH_T.pdf.txtSANCHEZ_CARRERA_SHADYA_NYZETH_T.pdf.txtExtracted texttext/plain2327https://tesis.pucp.edu.pe/bitstreams/8e7a904f-89c5-49bb-821f-37b6f61ee2a5/downloadc7e9fb4fea8fb8f73066046f23d5a02bMD57falseAdministratorREADTHUMBNAILSANCHEZ_CARRERA_SHADYA_NYZETH_EXTRACCION_TEXTOS.pdf.jpgSANCHEZ_CARRERA_SHADYA_NYZETH_EXTRACCION_TEXTOS.pdf.jpgGenerated Thumbnailimage/jpeg10291https://tesis.pucp.edu.pe/bitstreams/347a05ec-7ff9-4bc9-9bfe-2aea9195e020/download53bcf12c517c52aa99a44b1851c34505MD56falseAnonymousREADSANCHEZ_CARRERA_SHADYA_NYZETH_T.pdf.jpgSANCHEZ_CARRERA_SHADYA_NYZETH_T.pdf.jpgGenerated Thumbnailimage/jpeg10555https://tesis.pucp.edu.pe/bitstreams/5def2576-506e-486d-8285-63aa43720b11/download59896cf93c7bef17301146f401fcfcf5MD58falseAdministratorREAD20.500.12404/31148oai:tesis.pucp.edu.pe:20.500.12404/311482025-07-02 16:38:28.981http://creativecommons.org/licenses/by-nc/2.5/pe/info:eu-repo/semantics/embargoedAccessembargo2026-07-30https://tesis.pucp.edu.peRepositorio de Tesis PUCPraul.sifuentes@pucp.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0IG93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLCB0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZyB0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sIGluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlIHN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yIHB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZSB0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQgdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uIGFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LCB5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZSBjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdCBzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkIHdpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRCBCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUgRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSCBDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZSBzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMgbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |
score |
13.78023 |
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).