Reconocimiento de texto en manuscritos históricos peruanos utilizando modelos mixtos

Descripción del Articulo

El presente trabajo de investigación aborda la tarea del reconocimiento automático de texto escrito a mano (handwritten text recognition - HTR, por sus siglas en inglés) en los manuscritos históricos de autores peruanos, que están bajo la custodia de la Biblioteca Nacional del Perú (BNP), enfrentand...

Descripción completa

Detalles Bibliográficos
Autor: Tarazona Cruz, Luz Silvana
Formato: tesis de maestría
Fecha de Publicación:2024
Institución:Pontificia Universidad Católica del Perú
Repositorio:PUCP-Tesis
Lenguaje:español
OAI Identifier:oai:tesis.pucp.edu.pe:20.500.12404/29310
Enlace del recurso:http://hdl.handle.net/20.500.12404/29310
Nivel de acceso:acceso abierto
Materia:Manuscritos peruanos
Software para computadoras
Reconocimiento óptico de caracteres
https://purl.org/pe-repo/ocde/ford#1.02.00
id PUCP_5ac5ff7a8b2fd3a8afc90f43e9ec25a0
oai_identifier_str oai:tesis.pucp.edu.pe:20.500.12404/29310
network_acronym_str PUCP
network_name_str PUCP-Tesis
repository_id_str .
dc.title.es_ES.fl_str_mv Reconocimiento de texto en manuscritos históricos peruanos utilizando modelos mixtos
title Reconocimiento de texto en manuscritos históricos peruanos utilizando modelos mixtos
spellingShingle Reconocimiento de texto en manuscritos históricos peruanos utilizando modelos mixtos
Tarazona Cruz, Luz Silvana
Manuscritos peruanos
Software para computadoras
Reconocimiento óptico de caracteres
https://purl.org/pe-repo/ocde/ford#1.02.00
title_short Reconocimiento de texto en manuscritos históricos peruanos utilizando modelos mixtos
title_full Reconocimiento de texto en manuscritos históricos peruanos utilizando modelos mixtos
title_fullStr Reconocimiento de texto en manuscritos históricos peruanos utilizando modelos mixtos
title_full_unstemmed Reconocimiento de texto en manuscritos históricos peruanos utilizando modelos mixtos
title_sort Reconocimiento de texto en manuscritos históricos peruanos utilizando modelos mixtos
author Tarazona Cruz, Luz Silvana
author_facet Tarazona Cruz, Luz Silvana
author_role author
dc.contributor.advisor.fl_str_mv Fonseca Arroyo, Pablo Alejandro
dc.contributor.author.fl_str_mv Tarazona Cruz, Luz Silvana
dc.subject.es_ES.fl_str_mv Manuscritos peruanos
Software para computadoras
Reconocimiento óptico de caracteres
topic Manuscritos peruanos
Software para computadoras
Reconocimiento óptico de caracteres
https://purl.org/pe-repo/ocde/ford#1.02.00
dc.subject.ocde.es_ES.fl_str_mv https://purl.org/pe-repo/ocde/ford#1.02.00
description El presente trabajo de investigación aborda la tarea del reconocimiento automático de texto escrito a mano (handwritten text recognition - HTR, por sus siglas en inglés) en los manuscritos históricos de autores peruanos, que están bajo la custodia de la Biblioteca Nacional del Perú (BNP), enfrentando diversas dificultades como la variabilidad caligráfica, el deterioro del papel, entre otras. Para esta tarea, se emplearon modelos de reconocimiento de imágenes preentrenados en otros idiomas disponibles en la plataforma de código abierto denominado OCR4all. Se entrenaron tres modelos utilizando el conjunto de datos SPA-Sentences, conjunto que consta de imágenes y traducciones de aproximadamente 13,000 oraciones en idioma español, logrando una tasa de error de caracteres (character error rate - CER) promedio de 4.11% en el conjunto de validación. Posteriormente, este modelo elaborado se aplica en los manuscritos históricos peruanos, obteniendo una tasa de error promedio de 9.39%. El CER obtenido, ligeramente menor en comparación con el conjunto de datos SPA-Sentences utilizado en la etapa de entrenamiento, es atribuible a las diferencias en la calidad de las imágenes, así como en las características propias de los manuscritos. Este trabajo y el enfoque desarrollado en él demuestran la utilidad de los modelos de reconocimiento de imágenes preentrenados para abordar la tarea de HTR en manuscritos históricos, y se identifican áreas para futuras mejoras, como la optimización de la calidad de las imágenes, la diversidad del conjunto de datos y la exploración de modelos avanzados con la arquitectura Transformer.
publishDate 2024
dc.date.accessioned.none.fl_str_mv 2024-10-31T16:52:36Z
dc.date.available.none.fl_str_mv 2024-10-31T16:52:36Z
dc.date.created.none.fl_str_mv 2024
dc.date.issued.fl_str_mv 2024-10-31
dc.type.es_ES.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12404/29310
url http://hdl.handle.net/20.500.12404/29310
dc.language.iso.es_ES.fl_str_mv spa
language spa
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.es_ES.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nd/2.5/pe/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nd/2.5/pe/
dc.publisher.es_ES.fl_str_mv Pontificia Universidad Católica del Perú
dc.publisher.country.es_ES.fl_str_mv PE
dc.source.none.fl_str_mv reponame:PUCP-Tesis
instname:Pontificia Universidad Católica del Perú
instacron:PUCP
instname_str Pontificia Universidad Católica del Perú
instacron_str PUCP
institution PUCP
reponame_str PUCP-Tesis
collection PUCP-Tesis
bitstream.url.fl_str_mv https://tesis.pucp.edu.pe/bitstreams/f83a28aa-2a97-4230-a927-b4055cd14793/download
https://tesis.pucp.edu.pe/bitstreams/86f2dedc-4984-4e1b-8c31-d02cb66a6249/download
https://tesis.pucp.edu.pe/bitstreams/59f032e8-7093-4772-963e-5740f2d9f739/download
https://tesis.pucp.edu.pe/bitstreams/3dc0cd15-edd5-4d3a-b39d-a24328af71d8/download
https://tesis.pucp.edu.pe/bitstreams/0ebed331-679f-4dae-93c0-746148c63881/download
https://tesis.pucp.edu.pe/bitstreams/87748c92-907d-4739-872f-b9abe346171e/download
bitstream.checksum.fl_str_mv e811fa395bbec138b506c13209a1fafb
561ae33d7aa72a3e4714d982bb120269
b2fc4e9b848cf92ec77072b1352bdc01
8a4605be74aa9ea9d79846c1fba20a33
a5ee21be611dd36d85b50b05babc1b83
6be951d0ad1abd60848ec57054c3ce10
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio de Tesis PUCP
repository.mail.fl_str_mv raul.sifuentes@pucp.pe
_version_ 1834737054508908544
spelling Fonseca Arroyo, Pablo AlejandroTarazona Cruz, Luz Silvana2024-10-31T16:52:36Z2024-10-31T16:52:36Z20242024-10-31http://hdl.handle.net/20.500.12404/29310El presente trabajo de investigación aborda la tarea del reconocimiento automático de texto escrito a mano (handwritten text recognition - HTR, por sus siglas en inglés) en los manuscritos históricos de autores peruanos, que están bajo la custodia de la Biblioteca Nacional del Perú (BNP), enfrentando diversas dificultades como la variabilidad caligráfica, el deterioro del papel, entre otras. Para esta tarea, se emplearon modelos de reconocimiento de imágenes preentrenados en otros idiomas disponibles en la plataforma de código abierto denominado OCR4all. Se entrenaron tres modelos utilizando el conjunto de datos SPA-Sentences, conjunto que consta de imágenes y traducciones de aproximadamente 13,000 oraciones en idioma español, logrando una tasa de error de caracteres (character error rate - CER) promedio de 4.11% en el conjunto de validación. Posteriormente, este modelo elaborado se aplica en los manuscritos históricos peruanos, obteniendo una tasa de error promedio de 9.39%. El CER obtenido, ligeramente menor en comparación con el conjunto de datos SPA-Sentences utilizado en la etapa de entrenamiento, es atribuible a las diferencias en la calidad de las imágenes, así como en las características propias de los manuscritos. Este trabajo y el enfoque desarrollado en él demuestran la utilidad de los modelos de reconocimiento de imágenes preentrenados para abordar la tarea de HTR en manuscritos históricos, y se identifican áreas para futuras mejoras, como la optimización de la calidad de las imágenes, la diversidad del conjunto de datos y la exploración de modelos avanzados con la arquitectura Transformer.This paper addresses the task of automatic handwritting text recognition (HTR) in historical manuscripts of Peruvian authors held by the National Library of Peru, facing various challenges such as calligraphy variability, paper deterioration, among others. To achieve this, pre-trained mixed models in other languages available on the opensource OCR platform called OCR4all were employed. Three models were trained using the SPA-Sentences dataset, which consists of a written Spanish collection of approximately 13,000 sentences, achieving an average Character Error Rate (CER) of 4.11% on the validation set. Subsequently, this developed model is applied to the Peruvian historical manuscripts, obtaining an average error rate of 9.39%. Although this value indicates slightly lower accuracy compared to processing the SPA-Sentences dataset, this is attributed to differences in the image’s quality, as well as the specific characteristics of the manuscripts. This approach demonstrates the usefulness of pre-trained models for addressing HTR in historical manuscripts in historical manuscripts, and areas for future improvements are identified, such as optimizing image quality, dataset diversity, and exploring advanced models with Transformer architecture.spaPontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nd/2.5/pe/Manuscritos peruanosSoftware para computadorasReconocimiento óptico de caractereshttps://purl.org/pe-repo/ocde/ford#1.02.00Reconocimiento de texto en manuscritos históricos peruanos utilizando modelos mixtosinfo:eu-repo/semantics/masterThesisreponame:PUCP-Tesisinstname:Pontificia Universidad Católica del Perúinstacron:PUCPSUNEDUMaestro en InformáticaMaestríaPontificia Universidad Católica del Perú. Escuela de Posgrado.Informática44695174https://orcid.org/0000-0002-0208-284241281069611077Galarreta Asian, Ana PaulaFonseca Arroyo, Pablo AlejandroHuiza Pereyra, Eric Raphaelhttps://purl.org/pe-repo/renati/level#maestrohttps://purl.org/pe-repo/renati/type#trabajoDeInvestigacionORIGINALTARAZONA_CRUZ_LUZ_SILVANA_RECONOCIMIENTO_TEXTO.pdfTARAZONA_CRUZ_LUZ_SILVANA_RECONOCIMIENTO_TEXTO.pdfTexto completoapplication/pdf841953https://tesis.pucp.edu.pe/bitstreams/f83a28aa-2a97-4230-a927-b4055cd14793/downloade811fa395bbec138b506c13209a1fafbMD51trueAnonymousREADTARAZONA_CRUZ_LUZ_SILVANA_T.pdfTARAZONA_CRUZ_LUZ_SILVANA_T.pdfReporte de originalidadapplication/pdf5244935https://tesis.pucp.edu.pe/bitstreams/86f2dedc-4984-4e1b-8c31-d02cb66a6249/download561ae33d7aa72a3e4714d982bb120269MD52falseAnonymousREAD2500-01-01CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8805https://tesis.pucp.edu.pe/bitstreams/59f032e8-7093-4772-963e-5740f2d9f739/downloadb2fc4e9b848cf92ec77072b1352bdc01MD53falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://tesis.pucp.edu.pe/bitstreams/3dc0cd15-edd5-4d3a-b39d-a24328af71d8/download8a4605be74aa9ea9d79846c1fba20a33MD54falseAnonymousREADTHUMBNAILTARAZONA_CRUZ_LUZ_SILVANA_RECONOCIMIENTO_TEXTO.pdf.jpgTARAZONA_CRUZ_LUZ_SILVANA_RECONOCIMIENTO_TEXTO.pdf.jpgIM Thumbnailimage/jpeg21797https://tesis.pucp.edu.pe/bitstreams/0ebed331-679f-4dae-93c0-746148c63881/downloada5ee21be611dd36d85b50b05babc1b83MD55falseAnonymousREADTARAZONA_CRUZ_LUZ_SILVANA_T.pdf.jpgTARAZONA_CRUZ_LUZ_SILVANA_T.pdf.jpgIM Thumbnailimage/jpeg8866https://tesis.pucp.edu.pe/bitstreams/87748c92-907d-4739-872f-b9abe346171e/download6be951d0ad1abd60848ec57054c3ce10MD56falseAnonymousREAD2500-01-0120.500.12404/29310oai:tesis.pucp.edu.pe:20.500.12404/293102024-11-05 11:13:43.816http://creativecommons.org/licenses/by-nd/2.5/pe/info:eu-repo/semantics/openAccessopen.accesshttps://tesis.pucp.edu.peRepositorio de Tesis PUCPraul.sifuentes@pucp.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=
score 13.763929
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).