Reconocimiento de palabras en manuscritos históricos basado en aprendizaje online

Descripción del Articulo

En esta tesis se propone un método de reconocimiento online para la transcripción de palabras contenidas en manuscritos históricos. El método propuesto incluye las etapas de: preprocesamiento, que emplea diversas técnicas para segmentar el documento en imágenes de palabras; extracción de característ...

Descripción completa

Detalles Bibliográficos
Autor: Meza Lovón, Graciela Lecireth
Formato: tesis doctoral
Fecha de Publicación:2016
Institución:Consejo Nacional de Ciencia Tecnología e Innovación
Repositorio:CONCYTEC-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.concytec.gob.pe:20.500.12390/333
Enlace del recurso:https://hdl.handle.net/20.500.12390/333
Nivel de acceso:acceso abierto
Materia:Reconocimiento de caracteres
Manuscrito
https://purl.org/pe-repo/ocde/ford#1.02.01
id CONC_17a3293780ca5306358b77ca6aebcb63
oai_identifier_str oai:repositorio.concytec.gob.pe:20.500.12390/333
network_acronym_str CONC
network_name_str CONCYTEC-Institucional
repository_id_str 4689
dc.title.none.fl_str_mv Reconocimiento de palabras en manuscritos históricos basado en aprendizaje online
title Reconocimiento de palabras en manuscritos históricos basado en aprendizaje online
spellingShingle Reconocimiento de palabras en manuscritos históricos basado en aprendizaje online
Meza Lovón, Graciela Lecireth
Reconocimiento de caracteres
Manuscrito
https://purl.org/pe-repo/ocde/ford#1.02.01
title_short Reconocimiento de palabras en manuscritos históricos basado en aprendizaje online
title_full Reconocimiento de palabras en manuscritos históricos basado en aprendizaje online
title_fullStr Reconocimiento de palabras en manuscritos históricos basado en aprendizaje online
title_full_unstemmed Reconocimiento de palabras en manuscritos históricos basado en aprendizaje online
title_sort Reconocimiento de palabras en manuscritos históricos basado en aprendizaje online
author Meza Lovón, Graciela Lecireth
author_facet Meza Lovón, Graciela Lecireth
author_role author
dc.contributor.author.fl_str_mv Meza Lovón, Graciela Lecireth
dc.subject.none.fl_str_mv Reconocimiento de caracteres
topic Reconocimiento de caracteres
Manuscrito
https://purl.org/pe-repo/ocde/ford#1.02.01
dc.subject.es_PE.fl_str_mv Manuscrito
dc.subject.ocde.none.fl_str_mv https://purl.org/pe-repo/ocde/ford#1.02.01
description En esta tesis se propone un método de reconocimiento online para la transcripción de palabras contenidas en manuscritos históricos. El método propuesto incluye las etapas de: preprocesamiento, que emplea diversas técnicas para segmentar el documento en imágenes de palabras; extracción de características, que extrae información relevante usando, en este caso, características basadas en el gradiente, en particular, magnitud y orientación; y finalmente, el reconocimiento propiamente dicho, donde se concentran las principales contribuciones de esta tesis. En esta última etapa, se propusieron dos extensiones de la SVM-Online: la primera permite que el modelo opere en escenarios con conjuntos de datos de más de dos clases, para lo cual se usa la estrategia \uno contra uno"; la segunda extensión permite que el modelo emita salidas probabilísticas y no solo salidas discretas. Esta última extensión es de vital importancia, ya que posibilita el correcto funcionamiento del Reconocedor Basado en Grafos (RBG). El RBG es otra contribución de esta tesis y tiene la finalidad de evitar la segmentación del documento a nivel de carácter. Para ello, cada imagen a ser reconocida es representada por un grafo direccionado, cuyas aristas están relacionadas a una subimagen y a una probabilidad. En función de esta se estima, para cada arista, un costo que es empleado por el algoritmo Dijkstra Modificado, también propuesto en esta tesis, para emitir la transcripción de la imagen en cuestión. Los experimentos fueron realizados con tres conjuntos de datos: el corpus Ejecutora y Certificación del Escudo de Armas de Apellidos, el corpus Cristo Salvador, y el corpus Doña Germana de Foix. En base a los experimentos realizados, podemos concluir que los resultados obtenidos son satisfactorios en relación a otras propuestas de transcripción de textos presentadas en la literatura.
publishDate 2016
dc.date.accessioned.none.fl_str_mv 2024-05-30T23:13:38Z
dc.date.available.none.fl_str_mv 2024-05-30T23:13:38Z
dc.date.issued.fl_str_mv 2016-07-13
dc.type.none.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
dc.identifier.uri.none.fl_str_mv https://hdl.handle.net/20.500.12390/333
url https://hdl.handle.net/20.500.12390/333
dc.language.iso.none.fl_str_mv spa
language spa
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.none.fl_str_mv http://creativecommons.org/licenses/by/4.0/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by/4.0/
dc.publisher.none.fl_str_mv Universidad Nacional de San Agustín de Arequipa
publisher.none.fl_str_mv Universidad Nacional de San Agustín de Arequipa
dc.source.none.fl_str_mv reponame:CONCYTEC-Institucional
instname:Consejo Nacional de Ciencia Tecnología e Innovación
instacron:CONCYTEC
instname_str Consejo Nacional de Ciencia Tecnología e Innovación
instacron_str CONCYTEC
institution CONCYTEC
reponame_str CONCYTEC-Institucional
collection CONCYTEC-Institucional
bitstream.url.fl_str_mv https://repositorio.concytec.gob.pe/bitstreams/4902fdcb-6939-54fc-7e55-473360a21a24/download
https://repositorio.concytec.gob.pe/bitstreams/b143cd69-0f98-520c-9074-0506e7929b69/download
https://repositorio.concytec.gob.pe/bitstreams/271e1937-c63d-d638-df92-d94ed6d8e56c/download
https://repositorio.concytec.gob.pe/bitstreams/f71ae0e8-a953-4d16-bbf8-5ec20e9be05e/download
bitstream.checksum.fl_str_mv a262a0846511ac72ffc0a16611a710b2
97c863fd9024acce61cf1acccb70d95c
8a4605be74aa9ea9d79846c1fba20a33
7c8316ba8bf96b73437bdc777b8fc215
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Institucional CONCYTEC
repository.mail.fl_str_mv repositorio@concytec.gob.pe
_version_ 1844882997213396992
spelling Publicationrp00313600Meza Lovón, Graciela Lecireth2024-05-30T23:13:38Z2024-05-30T23:13:38Z2016-07-13https://hdl.handle.net/20.500.12390/333En esta tesis se propone un método de reconocimiento online para la transcripción de palabras contenidas en manuscritos históricos. El método propuesto incluye las etapas de: preprocesamiento, que emplea diversas técnicas para segmentar el documento en imágenes de palabras; extracción de características, que extrae información relevante usando, en este caso, características basadas en el gradiente, en particular, magnitud y orientación; y finalmente, el reconocimiento propiamente dicho, donde se concentran las principales contribuciones de esta tesis. En esta última etapa, se propusieron dos extensiones de la SVM-Online: la primera permite que el modelo opere en escenarios con conjuntos de datos de más de dos clases, para lo cual se usa la estrategia \uno contra uno"; la segunda extensión permite que el modelo emita salidas probabilísticas y no solo salidas discretas. Esta última extensión es de vital importancia, ya que posibilita el correcto funcionamiento del Reconocedor Basado en Grafos (RBG). El RBG es otra contribución de esta tesis y tiene la finalidad de evitar la segmentación del documento a nivel de carácter. Para ello, cada imagen a ser reconocida es representada por un grafo direccionado, cuyas aristas están relacionadas a una subimagen y a una probabilidad. En función de esta se estima, para cada arista, un costo que es empleado por el algoritmo Dijkstra Modificado, también propuesto en esta tesis, para emitir la transcripción de la imagen en cuestión. Los experimentos fueron realizados con tres conjuntos de datos: el corpus Ejecutora y Certificación del Escudo de Armas de Apellidos, el corpus Cristo Salvador, y el corpus Doña Germana de Foix. En base a los experimentos realizados, podemos concluir que los resultados obtenidos son satisfactorios en relación a otras propuestas de transcripción de textos presentadas en la literatura.Fondo Nacional de Desarrollo Científico y Tecnológico - FondecytspaUniversidad Nacional de San Agustín de Arequipainfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by/4.0/Reconocimiento de caracteresManuscrito-1https://purl.org/pe-repo/ocde/ford#1.02.01-1Reconocimiento de palabras en manuscritos históricos basado en aprendizaje onlineinfo:eu-repo/semantics/doctoralThesisreponame:CONCYTEC-Institucionalinstname:Consejo Nacional de Ciencia Tecnología e Innovacióninstacron:CONCYTEC#PLACEHOLDER_PARENT_METADATA_VALUE#Doctor en Ciencias de la ComputaciónComputación y Ciencias de la InformaciónUniversidad Nacional de San Agustín.Unidad de Post Grado.Facultad de Ingenería de Producción y ServiciosORIGINAL2016_Meza_Reconocimiento-palabras-manuscritos.pdf2016_Meza_Reconocimiento-palabras-manuscritos.pdfapplication/pdf6382986https://repositorio.concytec.gob.pe/bitstreams/4902fdcb-6939-54fc-7e55-473360a21a24/downloada262a0846511ac72ffc0a16611a710b2MD53THUMBNAIL2016_Meza_Reconocimiento-palabras-manuscritos.pdf.jpg2016_Meza_Reconocimiento-palabras-manuscritos.pdf.jpgIM Thumbnailimage/jpeg6450https://repositorio.concytec.gob.pe/bitstreams/b143cd69-0f98-520c-9074-0506e7929b69/download97c863fd9024acce61cf1acccb70d95cMD54LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://repositorio.concytec.gob.pe/bitstreams/271e1937-c63d-d638-df92-d94ed6d8e56c/download8a4605be74aa9ea9d79846c1fba20a33MD52TEXT2016_Meza_Reconocimiento-palabras-manuscritos.pdf.txt2016_Meza_Reconocimiento-palabras-manuscritos.pdf.txtExtracted texttext/plain202150https://repositorio.concytec.gob.pe/bitstreams/f71ae0e8-a953-4d16-bbf8-5ec20e9be05e/download7c8316ba8bf96b73437bdc777b8fc215MD5520.500.12390/333oai:repositorio.concytec.gob.pe:20.500.12390/3332024-06-10 15:18:17.914http://creativecommons.org/licenses/by/4.0/info:eu-repo/semantics/openAccesshttp://purl.org/coar/access_right/c_abf2info:eu-repo/semantics/openAccessopen accesshttps://repositorio.concytec.gob.peRepositorio Institucional CONCYTECrepositorio@concytec.gob.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=#PLACEHOLDER_PARENT_METADATA_VALUE#<Publication xmlns="https://www.openaire.eu/cerif-profile/1.1/" id="8c6bd3b2-1598-4dd7-9158-2e617921f3c6"> <Type xmlns="https://www.openaire.eu/cerif-profile/vocab/COAR_Publication_Types">http://purl.org/coar/resource_type/c_1843</Type> <Language>spa</Language> <Title>Reconocimiento de palabras en manuscritos históricos basado en aprendizaje online</Title> <PublishedIn> <Publication> </Publication> </PublishedIn> <PublicationDate>2016-07-13</PublicationDate> <Authors> <Author> <DisplayName>Meza Lovón, Graciela Lecireth</DisplayName> <Person id="rp00313" /> <Affiliation> <OrgUnit> </OrgUnit> </Affiliation> </Author> </Authors> <Editors> </Editors> <Publishers> <Publisher> <DisplayName>Universidad Nacional de San Agustín de Arequipa</DisplayName> <OrgUnit /> </Publisher> </Publishers> <License>http://creativecommons.org/licenses/by/4.0/</License> <Keyword>Reconocimiento de caracteres</Keyword> <Keyword>Manuscrito</Keyword> <Abstract>En esta tesis se propone un método de reconocimiento online para la transcripción de palabras contenidas en manuscritos históricos. El método propuesto incluye las etapas de: preprocesamiento, que emplea diversas técnicas para segmentar el documento en imágenes de palabras; extracción de características, que extrae información relevante usando, en este caso, características basadas en el gradiente, en particular, magnitud y orientación; y finalmente, el reconocimiento propiamente dicho, donde se concentran las principales contribuciones de esta tesis. En esta última etapa, se propusieron dos extensiones de la SVM-Online: la primera permite que el modelo opere en escenarios con conjuntos de datos de más de dos clases, para lo cual se usa la estrategia \uno contra uno&quot;; la segunda extensión permite que el modelo emita salidas probabilísticas y no solo salidas discretas. Esta última extensión es de vital importancia, ya que posibilita el correcto funcionamiento del Reconocedor Basado en Grafos (RBG). El RBG es otra contribución de esta tesis y tiene la finalidad de evitar la segmentación del documento a nivel de carácter. Para ello, cada imagen a ser reconocida es representada por un grafo direccionado, cuyas aristas están relacionadas a una subimagen y a una probabilidad. En función de esta se estima, para cada arista, un costo que es empleado por el algoritmo Dijkstra Modificado, también propuesto en esta tesis, para emitir la transcripción de la imagen en cuestión. Los experimentos fueron realizados con tres conjuntos de datos: el corpus Ejecutora y Certificación del Escudo de Armas de Apellidos, el corpus Cristo Salvador, y el corpus Doña Germana de Foix. En base a los experimentos realizados, podemos concluir que los resultados obtenidos son satisfactorios en relación a otras propuestas de transcripción de textos presentadas en la literatura.</Abstract> <Access xmlns="http://purl.org/coar/access_right" > </Access> </Publication> -1
score 13.394457
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).