Algoritmo basado en inteligencia artificial para el procesamiento de libros caja manuscritos y su conversión a archivos de datos estructurados

Descripción del Articulo

La digitalización de libros antiguos es una tarea que es aún desafiante en la actualidad, a pesar del avance tecnológico. No toda la información disponible en el mundo ha sido digitalizada, por ende, aún se desconocen varios hechos importantes de la historia. Ante esto, la inteligencia artificial es...

Descripción completa

Detalles Bibliográficos
Autor: Chapilliquen Nicolas, Daniel Alexander
Formato: tesis de grado
Fecha de Publicación:2024
Institución:Universidad de Piura
Repositorio:UDEP-Institucional
Lenguaje:español
OAI Identifier:oai:pirhua.udep.edu.pe:11042/6646
Enlace del recurso:https://hdl.handle.net/11042/6646
Nivel de acceso:acceso abierto
Materia:Libros de contabilidad -- Digitalización
Libros antiguos -- Digitalización -- Inteligencia artificial
Manuscritos -- Inteligencia artificial -- Aplicación
006.42
https://purl.org/pe-repo/ocde/ford#2.11.04
id UDEP_d0b7e2ebab766d3e0f06880284cba754
oai_identifier_str oai:pirhua.udep.edu.pe:11042/6646
network_acronym_str UDEP
network_name_str UDEP-Institucional
repository_id_str 2644
dc.title.none.fl_str_mv Algoritmo basado en inteligencia artificial para el procesamiento de libros caja manuscritos y su conversión a archivos de datos estructurados
title Algoritmo basado en inteligencia artificial para el procesamiento de libros caja manuscritos y su conversión a archivos de datos estructurados
spellingShingle Algoritmo basado en inteligencia artificial para el procesamiento de libros caja manuscritos y su conversión a archivos de datos estructurados
Chapilliquen Nicolas, Daniel Alexander
Libros de contabilidad -- Digitalización
Libros antiguos -- Digitalización -- Inteligencia artificial
Manuscritos -- Inteligencia artificial -- Aplicación
006.42
https://purl.org/pe-repo/ocde/ford#2.11.04
title_short Algoritmo basado en inteligencia artificial para el procesamiento de libros caja manuscritos y su conversión a archivos de datos estructurados
title_full Algoritmo basado en inteligencia artificial para el procesamiento de libros caja manuscritos y su conversión a archivos de datos estructurados
title_fullStr Algoritmo basado en inteligencia artificial para el procesamiento de libros caja manuscritos y su conversión a archivos de datos estructurados
title_full_unstemmed Algoritmo basado en inteligencia artificial para el procesamiento de libros caja manuscritos y su conversión a archivos de datos estructurados
title_sort Algoritmo basado en inteligencia artificial para el procesamiento de libros caja manuscritos y su conversión a archivos de datos estructurados
author Chapilliquen Nicolas, Daniel Alexander
author_facet Chapilliquen Nicolas, Daniel Alexander
author_role author
dc.contributor.advisor.fl_str_mv Quinde Li Say Tan, Mario José
dc.contributor.author.fl_str_mv Chapilliquen Nicolas, Daniel Alexander
dc.subject.none.fl_str_mv Libros de contabilidad -- Digitalización
Libros antiguos -- Digitalización -- Inteligencia artificial
Manuscritos -- Inteligencia artificial -- Aplicación
topic Libros de contabilidad -- Digitalización
Libros antiguos -- Digitalización -- Inteligencia artificial
Manuscritos -- Inteligencia artificial -- Aplicación
006.42
https://purl.org/pe-repo/ocde/ford#2.11.04
dc.subject.ddc.none.fl_str_mv 006.42
dc.subject.ocde.none.fl_str_mv https://purl.org/pe-repo/ocde/ford#2.11.04
description La digitalización de libros antiguos es una tarea que es aún desafiante en la actualidad, a pesar del avance tecnológico. No toda la información disponible en el mundo ha sido digitalizada, por ende, aún se desconocen varios hechos importantes de la historia. Ante esto, la inteligencia artificial es una herramienta que nos permite convertir texto escrito o impreso en un formato digital manejable, el Reconocimiento Óptico de Caracteres (OCR por sus siglas en inglés). Sin embargo, esta herramienta no entrega un resultado legible si no se tiene en cuenta la estructura de la información a procesar. La tesis tiene como objetivo diseñar y validar un algoritmo basado en inteligencia artificial para el procesamiento de libros caja manuscritos de la empresa Duncan-Fox de los años 1881-1889 y su conversión a archivos de datos estructurados. La solución propuesta es una herramienta que permitiría estudiar la historia económica de Piura mediante la influencia de la casa comercial Duncan-Fox, empresa de gran participación en el mercado piurano entre los siglos XIX – XX. Para la metodología de esta investigación se analizó la precisión de lectura de diversas OCR disponibles en internet, algunas de paga y otras gratuitas, con el fin de encontrar la más adecuada para las características de los libros. Por otra parte, fue necesario el uso de materiales como cámara profesional, guantes quirúrgicos y copy stand para la digitalización de las páginas de los libros caja. Así como el empleo de redes neuronales para diseñar modelos de detección que permitan identificar la estructura de las páginas para, posteriormente estructurar la información mediante programación. El algoritmo diseñado se define en una secuencia de seis pasos: digitalización de libro, normalización, detección de líneas verticales, detección de líneas horizontales, detección de texto y estructuración. Este algoritmo fue validado cumpliendo con el objetivo planteado y sembrando ideas de trabajo a futuro para expandir la investigación.
publishDate 2024
dc.date.accessioned.none.fl_str_mv 2024-04-09T23:45:38Z
dc.date.available.none.fl_str_mv 2024-04-09T23:45:38Z
dc.date.issued.fl_str_mv 2024-03
dc.type.none.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
dc.identifier.citation.none.fl_str_mv Chapilliquen, D. (2024). Algoritmo basado en inteligencia artificial para el procesamiento de libros caja manuscritos y su conversión a archivos de datos estructurados (Tesis para optar el título de Ingeniero Industrial y de Sistemas). Universidad de Piura. Facultad de Ingeniería. Programa Académico de Ingeniería Industrial y de Sistemas. Piura, Perú.
dc.identifier.uri.none.fl_str_mv https://hdl.handle.net/11042/6646
identifier_str_mv Chapilliquen, D. (2024). Algoritmo basado en inteligencia artificial para el procesamiento de libros caja manuscritos y su conversión a archivos de datos estructurados (Tesis para optar el título de Ingeniero Industrial y de Sistemas). Universidad de Piura. Facultad de Ingeniería. Programa Académico de Ingeniería Industrial y de Sistemas. Piura, Perú.
url https://hdl.handle.net/11042/6646
dc.language.iso.none.fl_str_mv spa
language spa
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.none.fl_str_mv https://creativecommons.org/licenses/by-nd/4.0/
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by-nd/4.0/
dc.format.none.fl_str_mv application/pdf
dc.coverage.spatial.none.fl_str_mv Perú
dc.publisher.es.fl_str_mv Universidad de Piura
dc.publisher.country.none.fl_str_mv PE
dc.source.es.fl_str_mv Universidad de Piura
Repositorio Institucional Pirhua - UDEP
dc.source.none.fl_str_mv reponame:UDEP-Institucional
instname:Universidad de Piura
instacron:UDEP
instname_str Universidad de Piura
instacron_str UDEP
institution UDEP
reponame_str UDEP-Institucional
collection UDEP-Institucional
bitstream.url.fl_str_mv https://pirhua.udep.edu.pe/backend/api/core/bitstreams/4313c372-6415-4083-94c9-f0d27081aa6f/download
https://pirhua.udep.edu.pe/backend/api/core/bitstreams/fc4093ba-09bf-41c1-9771-6db424ee54b1/download
https://pirhua.udep.edu.pe/backend/api/core/bitstreams/ac9546ef-905a-4756-aa1e-85693e3bc452/download
https://pirhua.udep.edu.pe/backend/api/core/bitstreams/1a8ec314-6fed-4e06-8f4b-c19502c7acf6/download
https://pirhua.udep.edu.pe/backend/api/core/bitstreams/c565e6e7-2670-4c20-93b5-338e7a1eec6b/download
https://pirhua.udep.edu.pe/backend/api/core/bitstreams/044cda61-cb4a-4bc8-9424-adbd0dc97f43/download
https://pirhua.udep.edu.pe/backend/api/core/bitstreams/4bfeb119-6607-41a9-a851-9286f918aeba/download
https://pirhua.udep.edu.pe/backend/api/core/bitstreams/6d5684a8-491f-4c75-953c-2d0637c3aa3d/download
https://pirhua.udep.edu.pe/backend/api/core/bitstreams/9b337a60-d385-4649-bb7e-cc898b4c4368/download
https://pirhua.udep.edu.pe/backend/api/core/bitstreams/d9128eef-0776-415e-a3a3-6057c62f97b7/download
https://pirhua.udep.edu.pe/backend/api/core/bitstreams/f2dc07c1-2373-4ae5-8fe6-7e7c77bd1890/download
https://pirhua.udep.edu.pe/backend/api/core/bitstreams/3b6e3a19-f058-4681-83ae-e95fb50fc6f3/download
https://pirhua.udep.edu.pe/backend/api/core/bitstreams/f3322d22-0273-491d-a960-d14202063ddb/download
bitstream.checksum.fl_str_mv acd5d5cc8781d16869c4a73cf6dd499e
23c68cfa3bc9e628e58615e0511d7698
80ba02ba24f3879dea5c882f0f79b03b
9b7c1c9ad52add6e29dd6d1c6b872b29
8a4605be74aa9ea9d79846c1fba20a33
597cfac3540e8e75da9ec43bfc13e104
7adb3c6f2a3e2176c70ee08a68bac644
4445f8a667d2d0d29b660ce3321108e7
ceb1cf51249de6bdc2c151c84ce72b0c
6fa4f1a0f8c68cb9de066b581b2570d9
6f6a1627985ad70748979a0713b51797
009b5266498d3e69275ddcab21a3f1e0
6fa4f1a0f8c68cb9de066b581b2570d9
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional Pirhua
repository.mail.fl_str_mv no-reply3@udep.edu.pe
_version_ 1839819206899531776
spelling Quinde Li Say Tan, Mario JoséChapilliquen Nicolas, Daniel AlexanderPerú2024-04-09T23:45:38Z2024-04-09T23:45:38Z2024-03Chapilliquen, D. (2024). Algoritmo basado en inteligencia artificial para el procesamiento de libros caja manuscritos y su conversión a archivos de datos estructurados (Tesis para optar el título de Ingeniero Industrial y de Sistemas). Universidad de Piura. Facultad de Ingeniería. Programa Académico de Ingeniería Industrial y de Sistemas. Piura, Perú.https://hdl.handle.net/11042/6646La digitalización de libros antiguos es una tarea que es aún desafiante en la actualidad, a pesar del avance tecnológico. No toda la información disponible en el mundo ha sido digitalizada, por ende, aún se desconocen varios hechos importantes de la historia. Ante esto, la inteligencia artificial es una herramienta que nos permite convertir texto escrito o impreso en un formato digital manejable, el Reconocimiento Óptico de Caracteres (OCR por sus siglas en inglés). Sin embargo, esta herramienta no entrega un resultado legible si no se tiene en cuenta la estructura de la información a procesar. La tesis tiene como objetivo diseñar y validar un algoritmo basado en inteligencia artificial para el procesamiento de libros caja manuscritos de la empresa Duncan-Fox de los años 1881-1889 y su conversión a archivos de datos estructurados. La solución propuesta es una herramienta que permitiría estudiar la historia económica de Piura mediante la influencia de la casa comercial Duncan-Fox, empresa de gran participación en el mercado piurano entre los siglos XIX – XX. Para la metodología de esta investigación se analizó la precisión de lectura de diversas OCR disponibles en internet, algunas de paga y otras gratuitas, con el fin de encontrar la más adecuada para las características de los libros. Por otra parte, fue necesario el uso de materiales como cámara profesional, guantes quirúrgicos y copy stand para la digitalización de las páginas de los libros caja. Así como el empleo de redes neuronales para diseñar modelos de detección que permitan identificar la estructura de las páginas para, posteriormente estructurar la información mediante programación. El algoritmo diseñado se define en una secuencia de seis pasos: digitalización de libro, normalización, detección de líneas verticales, detección de líneas horizontales, detección de texto y estructuración. Este algoritmo fue validado cumpliendo con el objetivo planteado y sembrando ideas de trabajo a futuro para expandir la investigación.application/pdfspaUniversidad de PiuraPEinfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by-nd/4.0/Universidad de PiuraRepositorio Institucional Pirhua - UDEPreponame:UDEP-Institucionalinstname:Universidad de Piurainstacron:UDEPLibros de contabilidad -- DigitalizaciónLibros antiguos -- Digitalización -- Inteligencia artificialManuscritos -- Inteligencia artificial -- Aplicación006.42https://purl.org/pe-repo/ocde/ford#2.11.04Algoritmo basado en inteligencia artificial para el procesamiento de libros caja manuscritos y su conversión a archivos de datos estructuradosinfo:eu-repo/semantics/bachelorThesisSUNEDUIngeniero Industrial y de SistemasUniversidad de Piura. Facultad de IngenieríaIngeniería Industrial y de SistemasFacultad de IngenieríaDepartamento de Ingeniería Industrial y de SistemasÁrea de Sistemas de Información71710065https://orcid.org/0000-0003-1053-132644370672https://purl.org/pe-repo/renati/type#tesishttps://purl.org/pe-repo/renati/level#tituloProfesional722076Agurto Adrianzén, MarcosCarrasco Fonseca, Julio GustavoORIGINALING_2412_cREST.pdfING_2412_cREST.pdfArchivo principalapplication/pdf444608https://pirhua.udep.edu.pe/backend/api/core/bitstreams/4313c372-6415-4083-94c9-f0d27081aa6f/downloadacd5d5cc8781d16869c4a73cf6dd499eMD51Autorización-Chapilliquen_Nicolas.pdfAutorización de publicaciónapplication/pdf511071https://pirhua.udep.edu.pe/backend/api/core/bitstreams/fc4093ba-09bf-41c1-9771-6db424ee54b1/download23c68cfa3bc9e628e58615e0511d7698MD53Reporte-Chapilliquen_Nicolas.pdfReporte de Turnitinapplication/pdf4028701https://pirhua.udep.edu.pe/backend/api/core/bitstreams/ac9546ef-905a-4756-aa1e-85693e3bc452/download80ba02ba24f3879dea5c882f0f79b03bMD54ING_2412.pdfArchivo completoapplication/pdf4221010https://pirhua.udep.edu.pe/backend/api/core/bitstreams/1a8ec314-6fed-4e06-8f4b-c19502c7acf6/download9b7c1c9ad52add6e29dd6d1c6b872b29MD55LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://pirhua.udep.edu.pe/backend/api/core/bitstreams/c565e6e7-2670-4c20-93b5-338e7a1eec6b/download8a4605be74aa9ea9d79846c1fba20a33MD52TEXTING_2412_cREST.pdf.txtING_2412_cREST.pdf.txtExtracted texttext/plain4575https://pirhua.udep.edu.pe/backend/api/core/bitstreams/044cda61-cb4a-4bc8-9424-adbd0dc97f43/download597cfac3540e8e75da9ec43bfc13e104MD56Autorización-Chapilliquen_Nicolas.pdf.txtAutorización-Chapilliquen_Nicolas.pdf.txtExtracted texttext/plain4108https://pirhua.udep.edu.pe/backend/api/core/bitstreams/4bfeb119-6607-41a9-a851-9286f918aeba/download7adb3c6f2a3e2176c70ee08a68bac644MD58Reporte-Chapilliquen_Nicolas.pdf.txtReporte-Chapilliquen_Nicolas.pdf.txtExtracted texttext/plain104571https://pirhua.udep.edu.pe/backend/api/core/bitstreams/6d5684a8-491f-4c75-953c-2d0637c3aa3d/download4445f8a667d2d0d29b660ce3321108e7MD510ING_2412.pdf.txtING_2412.pdf.txtExtracted texttext/plain104555https://pirhua.udep.edu.pe/backend/api/core/bitstreams/9b337a60-d385-4649-bb7e-cc898b4c4368/downloadceb1cf51249de6bdc2c151c84ce72b0cMD512THUMBNAILING_2412_cREST.pdf.jpgING_2412_cREST.pdf.jpgGenerated Thumbnailimage/jpeg3370https://pirhua.udep.edu.pe/backend/api/core/bitstreams/d9128eef-0776-415e-a3a3-6057c62f97b7/download6fa4f1a0f8c68cb9de066b581b2570d9MD57Autorización-Chapilliquen_Nicolas.pdf.jpgAutorización-Chapilliquen_Nicolas.pdf.jpgGenerated Thumbnailimage/jpeg5633https://pirhua.udep.edu.pe/backend/api/core/bitstreams/f2dc07c1-2373-4ae5-8fe6-7e7c77bd1890/download6f6a1627985ad70748979a0713b51797MD59Reporte-Chapilliquen_Nicolas.pdf.jpgReporte-Chapilliquen_Nicolas.pdf.jpgGenerated Thumbnailimage/jpeg3623https://pirhua.udep.edu.pe/backend/api/core/bitstreams/3b6e3a19-f058-4681-83ae-e95fb50fc6f3/download009b5266498d3e69275ddcab21a3f1e0MD511ING_2412.pdf.jpgING_2412.pdf.jpgGenerated Thumbnailimage/jpeg3370https://pirhua.udep.edu.pe/backend/api/core/bitstreams/f3322d22-0273-491d-a960-d14202063ddb/download6fa4f1a0f8c68cb9de066b581b2570d9MD51311042/6646oai:pirhua.udep.edu.pe:11042/66462024-07-26 05:13:34.866https://creativecommons.org/licenses/by-nd/4.0/info:eu-repo/semantics/openAccessopen.accesshttps://pirhua.udep.edu.peRepositorio Institucional Pirhuano-reply3@udep.edu.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=
score 13.473212
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).