Extracción de textos escritos en lenguas nativas peruanas utilizando OCR

Descripción del Articulo

La incorporación de las lenguas minoritarias en el desarrollo de las tecnologías del lenguaje plantea un desafío debido a su limitada presencia digital y la prevalencia de recursos en formatos poco accesibles. Este trabajo aborda este problema mediante la digitalización de documentos antigüos escrit...

Descripción completa

Detalles Bibliográficos
Autor: Sánchez Carrera, Shadya Nyzeth
Formato: tesis de maestría
Fecha de Publicación:2024
Institución:Pontificia Universidad Católica del Perú
Repositorio:PUCP-Tesis
Lenguaje:español
OAI Identifier:oai:tesis.pucp.edu.pe:20.500.12404/31148
Enlace del recurso:http://hdl.handle.net/20.500.12404/31148
Nivel de acceso:acceso embargado
Materia:Lenguas indigenas--Perú
Reconocimiento óptico de caracteres
Procesamiento de lenguaje natural (Computación)
https://purl.org/pe-repo/ocde/ford#5.08.02
id PUCP_09e481a8366968c6a0d68e24c2581640
oai_identifier_str oai:tesis.pucp.edu.pe:20.500.12404/31148
network_acronym_str PUCP
network_name_str PUCP-Tesis
repository_id_str .
dc.title.none.fl_str_mv Extracción de textos escritos en lenguas nativas peruanas utilizando OCR
title Extracción de textos escritos en lenguas nativas peruanas utilizando OCR
spellingShingle Extracción de textos escritos en lenguas nativas peruanas utilizando OCR
Sánchez Carrera, Shadya Nyzeth
Lenguas indigenas--Perú
Reconocimiento óptico de caracteres
Procesamiento de lenguaje natural (Computación)
https://purl.org/pe-repo/ocde/ford#5.08.02
title_short Extracción de textos escritos en lenguas nativas peruanas utilizando OCR
title_full Extracción de textos escritos en lenguas nativas peruanas utilizando OCR
title_fullStr Extracción de textos escritos en lenguas nativas peruanas utilizando OCR
title_full_unstemmed Extracción de textos escritos en lenguas nativas peruanas utilizando OCR
title_sort Extracción de textos escritos en lenguas nativas peruanas utilizando OCR
author Sánchez Carrera, Shadya Nyzeth
author_facet Sánchez Carrera, Shadya Nyzeth
author_role author
dc.contributor.advisor.fl_str_mv Oncevay Marcos, Félix Arturo
dc.contributor.author.fl_str_mv Sánchez Carrera, Shadya Nyzeth
dc.subject.none.fl_str_mv Lenguas indigenas--Perú
Reconocimiento óptico de caracteres
Procesamiento de lenguaje natural (Computación)
topic Lenguas indigenas--Perú
Reconocimiento óptico de caracteres
Procesamiento de lenguaje natural (Computación)
https://purl.org/pe-repo/ocde/ford#5.08.02
dc.subject.ocde.none.fl_str_mv https://purl.org/pe-repo/ocde/ford#5.08.02
description La incorporación de las lenguas minoritarias en el desarrollo de las tecnologías del lenguaje plantea un desafío debido a su limitada presencia digital y la prevalencia de recursos en formatos poco accesibles. Este trabajo aborda este problema mediante la digitalización de documentos antigüos escritos en cuatro lenguas nativas peruanas (Asháninka, Shipibo-Konibo, Yanesha y Yine), utilizando modelos de Reconocimiento Óptico de Caracteres (OCR) y aplicando métodos de corrección para minimizar los errores en la extracción de los textos. Las principales contribuciones de este estudio incluyen la creación de un conjunto de datos anotado con 454 imágenes de páginas escaneadas, el desarrollo de un módulo para corregir la alineación de las transcripciones generadas por los OCR y la implementación de una interfaz web para facilitar la búsqueda de textos dentro del conjunto de datos.
publishDate 2024
dc.date.created.none.fl_str_mv 2024
dc.date.accessioned.none.fl_str_mv 2025-07-01T19:45:17Z
dc.date.issued.fl_str_mv 2025-07-01
dc.type.none.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12404/31148
url http://hdl.handle.net/20.500.12404/31148
dc.language.iso.none.fl_str_mv spa
language spa
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.none.fl_str_mv info:eu-repo/semantics/embargoedAccess
dc.rights.uri.none.fl_str_mv http://creativecommons.org/licenses/by-nc/2.5/pe/
eu_rights_str_mv embargoedAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc/2.5/pe/
dc.publisher.es_ES.fl_str_mv Pontificia Universidad Católica del Perú
dc.publisher.country.none.fl_str_mv PE
dc.source.none.fl_str_mv reponame:PUCP-Tesis
instname:Pontificia Universidad Católica del Perú
instacron:PUCP
instname_str Pontificia Universidad Católica del Perú
instacron_str PUCP
institution PUCP
reponame_str PUCP-Tesis
collection PUCP-Tesis
bitstream.url.fl_str_mv https://tesis.pucp.edu.pe/bitstreams/452f700a-49cb-4dd9-a79f-34bb311e6ab7/download
https://tesis.pucp.edu.pe/bitstreams/b7ccb2fa-7560-4697-b1fd-e3340af9522b/download
https://tesis.pucp.edu.pe/bitstreams/b6775497-9055-4fd8-b905-8c3b36f1dd08/download
https://tesis.pucp.edu.pe/bitstreams/30cb2bab-002e-4790-b676-9cc347d17165/download
https://tesis.pucp.edu.pe/bitstreams/d24c6610-9463-4adf-b66c-4a4aa88a2f80/download
https://tesis.pucp.edu.pe/bitstreams/8e7a904f-89c5-49bb-821f-37b6f61ee2a5/download
https://tesis.pucp.edu.pe/bitstreams/347a05ec-7ff9-4bc9-9bfe-2aea9195e020/download
https://tesis.pucp.edu.pe/bitstreams/5def2576-506e-486d-8285-63aa43720b11/download
bitstream.checksum.fl_str_mv 87f00a429a31e7a6862aee0cd7ed93e4
89e9c686e236790638a60eb78fcd9561
29566c19d6c029587e3c8492ea72c569
bb9bdc0b3349e4284e09149f943790b4
27aaa3c78a2932eaef6642a51612dc5c
c7e9fb4fea8fb8f73066046f23d5a02b
53bcf12c517c52aa99a44b1851c34505
59896cf93c7bef17301146f401fcfcf5
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio de Tesis PUCP
repository.mail.fl_str_mv raul.sifuentes@pucp.pe
_version_ 1837273482700783616
spelling Oncevay Marcos, Félix ArturoSánchez Carrera, Shadya Nyzeth2025-07-01T19:45:17Z20242025-07-01http://hdl.handle.net/20.500.12404/31148La incorporación de las lenguas minoritarias en el desarrollo de las tecnologías del lenguaje plantea un desafío debido a su limitada presencia digital y la prevalencia de recursos en formatos poco accesibles. Este trabajo aborda este problema mediante la digitalización de documentos antigüos escritos en cuatro lenguas nativas peruanas (Asháninka, Shipibo-Konibo, Yanesha y Yine), utilizando modelos de Reconocimiento Óptico de Caracteres (OCR) y aplicando métodos de corrección para minimizar los errores en la extracción de los textos. Las principales contribuciones de este estudio incluyen la creación de un conjunto de datos anotado con 454 imágenes de páginas escaneadas, el desarrollo de un módulo para corregir la alineación de las transcripciones generadas por los OCR y la implementación de una interfaz web para facilitar la búsqueda de textos dentro del conjunto de datos.spaPontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/embargoedAccesshttp://creativecommons.org/licenses/by-nc/2.5/pe/Lenguas indigenas--PerúReconocimiento óptico de caracteresProcesamiento de lenguaje natural (Computación)https://purl.org/pe-repo/ocde/ford#5.08.02Extracción de textos escritos en lenguas nativas peruanas utilizando OCRinfo:eu-repo/semantics/masterThesisreponame:PUCP-Tesisinstname:Pontificia Universidad Católica del Perúinstacron:PUCPSUNEDUMaestro en Informática con mención en Ciencias de la ComputaciónMaestríaPontificia Universidad Católica del Perú. Escuela de Posgrado.Informática con mención en Ciencias de la Computación46440101https://orcid.org/0000-0001-7675-620870169185611087Brossard Nuñez, Ian PaulOncevay Marcos, Felix ArturoSobrevilla Cabezudo, Marco Antoniohttps://purl.org/pe-repo/renati/level#maestrohttps://purl.org/pe-repo/renati/type#trabajoDeInvestigacionORIGINALSANCHEZ_CARRERA_SHADYA_NYZETH_EXTRACCION_TEXTOS.pdfSANCHEZ_CARRERA_SHADYA_NYZETH_EXTRACCION_TEXTOS.pdfTexto completoapplication/pdf563158https://tesis.pucp.edu.pe/bitstreams/452f700a-49cb-4dd9-a79f-34bb311e6ab7/download87f00a429a31e7a6862aee0cd7ed93e4MD51trueAnonymousREAD2026-07-30SANCHEZ_CARRERA_SHADYA_NYZETH_T.pdfSANCHEZ_CARRERA_SHADYA_NYZETH_T.pdfReporte de originalidadapplication/pdf2593291https://tesis.pucp.edu.pe/bitstreams/b7ccb2fa-7560-4697-b1fd-e3340af9522b/download89e9c686e236790638a60eb78fcd9561MD52falseAdministratorREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81031https://tesis.pucp.edu.pe/bitstreams/b6775497-9055-4fd8-b905-8c3b36f1dd08/download29566c19d6c029587e3c8492ea72c569MD53falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://tesis.pucp.edu.pe/bitstreams/30cb2bab-002e-4790-b676-9cc347d17165/downloadbb9bdc0b3349e4284e09149f943790b4MD54falseAnonymousREADTEXTSANCHEZ_CARRERA_SHADYA_NYZETH_EXTRACCION_TEXTOS.pdf.txtSANCHEZ_CARRERA_SHADYA_NYZETH_EXTRACCION_TEXTOS.pdf.txtExtracted texttext/plain41164https://tesis.pucp.edu.pe/bitstreams/d24c6610-9463-4adf-b66c-4a4aa88a2f80/download27aaa3c78a2932eaef6642a51612dc5cMD55falseAnonymousREAD2026-07-30SANCHEZ_CARRERA_SHADYA_NYZETH_T.pdf.txtSANCHEZ_CARRERA_SHADYA_NYZETH_T.pdf.txtExtracted texttext/plain2327https://tesis.pucp.edu.pe/bitstreams/8e7a904f-89c5-49bb-821f-37b6f61ee2a5/downloadc7e9fb4fea8fb8f73066046f23d5a02bMD57falseAdministratorREADTHUMBNAILSANCHEZ_CARRERA_SHADYA_NYZETH_EXTRACCION_TEXTOS.pdf.jpgSANCHEZ_CARRERA_SHADYA_NYZETH_EXTRACCION_TEXTOS.pdf.jpgGenerated Thumbnailimage/jpeg10291https://tesis.pucp.edu.pe/bitstreams/347a05ec-7ff9-4bc9-9bfe-2aea9195e020/download53bcf12c517c52aa99a44b1851c34505MD56falseAnonymousREADSANCHEZ_CARRERA_SHADYA_NYZETH_T.pdf.jpgSANCHEZ_CARRERA_SHADYA_NYZETH_T.pdf.jpgGenerated Thumbnailimage/jpeg10555https://tesis.pucp.edu.pe/bitstreams/5def2576-506e-486d-8285-63aa43720b11/download59896cf93c7bef17301146f401fcfcf5MD58falseAdministratorREAD20.500.12404/31148oai:tesis.pucp.edu.pe:20.500.12404/311482025-07-02 16:38:28.981http://creativecommons.org/licenses/by-nc/2.5/pe/info:eu-repo/semantics/embargoedAccessembargo2026-07-30https://tesis.pucp.edu.peRepositorio de Tesis PUCPraul.sifuentes@pucp.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0IG93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLCB0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZyB0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sIGluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlIHN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yIHB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZSB0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQgdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uIGFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LCB5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZSBjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdCBzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkIHdpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRCBCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUgRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSCBDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZSBzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMgbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=
score 13.78023
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).