Diseño de un corrector ortográfico para un sistema de reconocimiento óptico de caracteres

Descripción del Articulo

Los sistemas de corrección usan como principio la lingüística computacional. En este contexto, un computador realiza un análisis ortográfico de los caracteres reconocidos por un OCR (Optical Chapter Recognition). Un OCR es un software que extraen de una imagen los caracteres que componen un texto pa...

Descripción completa

Detalles Bibliográficos
Autor: Salas Damián, Roberto Carlos
Formato: tesis de grado
Fecha de Publicación:2007
Institución:Pontificia Universidad Católica del Perú
Repositorio:PUCP-Tesis
Lenguaje:español
OAI Identifier:oai:tesis.pucp.edu.pe:20.500.12404/1089
Enlace del recurso:http://hdl.handle.net/20.500.12404/1089
Nivel de acceso:acceso abierto
Materia:Digitalización
Lingüística computacional
Procesamiento de imágenes digitales
Sistemas de reconocimiento de patrones
https://purl.org/pe-repo/ocde/ford#2.02.01
id PUCP_f4e20203b8b40c4d08809208c5fd30d0
oai_identifier_str oai:tesis.pucp.edu.pe:20.500.12404/1089
network_acronym_str PUCP
network_name_str PUCP-Tesis
repository_id_str .
dc.title.es_ES.fl_str_mv Diseño de un corrector ortográfico para un sistema de reconocimiento óptico de caracteres
title Diseño de un corrector ortográfico para un sistema de reconocimiento óptico de caracteres
spellingShingle Diseño de un corrector ortográfico para un sistema de reconocimiento óptico de caracteres
Salas Damián, Roberto Carlos
Digitalización
Lingüística computacional
Procesamiento de imágenes digitales
Sistemas de reconocimiento de patrones
https://purl.org/pe-repo/ocde/ford#2.02.01
title_short Diseño de un corrector ortográfico para un sistema de reconocimiento óptico de caracteres
title_full Diseño de un corrector ortográfico para un sistema de reconocimiento óptico de caracteres
title_fullStr Diseño de un corrector ortográfico para un sistema de reconocimiento óptico de caracteres
title_full_unstemmed Diseño de un corrector ortográfico para un sistema de reconocimiento óptico de caracteres
title_sort Diseño de un corrector ortográfico para un sistema de reconocimiento óptico de caracteres
author Salas Damián, Roberto Carlos
author_facet Salas Damián, Roberto Carlos
author_role author
dc.contributor.author.fl_str_mv Salas Damián, Roberto Carlos
dc.subject.es_ES.fl_str_mv Digitalización
Lingüística computacional
Procesamiento de imágenes digitales
Sistemas de reconocimiento de patrones
topic Digitalización
Lingüística computacional
Procesamiento de imágenes digitales
Sistemas de reconocimiento de patrones
https://purl.org/pe-repo/ocde/ford#2.02.01
dc.subject.ocde.es_ES.fl_str_mv https://purl.org/pe-repo/ocde/ford#2.02.01
description Los sistemas de corrección usan como principio la lingüística computacional. En este contexto, un computador realiza un análisis ortográfico de los caracteres reconocidos por un OCR (Optical Chapter Recognition). Un OCR es un software que extraen de una imagen los caracteres que componen un texto para almacenarlos en un formato con el cual puedan interactuar programas de edición de texto. El rendimiento de los sistemas de reconocimiento de caracteres es bajo cuando se trata de digitalizar documentos deteriorados debido a las manchas y otros factores que evitan que se reconozcan las palabras del texto original. Antes este problema, lo que se propone en esta tesis es la implementación de un sistema de corrección ortográfica a la salida del OCR, que permitirá mejorar su eficiencia al momento de reconocimiento del caracteres. De esta manera la digitalización de los documentos históricos podrá garantizar una calidad óptima. El sistema de corrección de ortográfica se basa en la búsqueda de patrones dentro de un texto. Esta búsqueda trata de encontrar todas las coincidencias de un patrón dentro de un texto, teniendo en consideración que la coincidencia de patrón con el texto puede tener un número limitado de diferencias. Este problema tiene aplicaciones en recuperación de información, biología computacional y procesamiento de señales, entre otras. Como conclusión principal se obtiene que con el modelo de corrección basado en la búsqueda de patrones se alcanza un rendimiento de 80%, además el tiempo de procesamiento requerido para analizar una palabra es de tan solo 0.1seg lo cual refleja un alto rendimiento. Con esto, podemos concluir también que la metodología desarrollada para realizar la corrección de las palabras es una buena opción para este objetivo.
publishDate 2007
dc.date.created.es_ES.fl_str_mv 2007
dc.date.accessioned.es_ES.fl_str_mv 2011-12-02T18:13:08Z
dc.date.available.es_ES.fl_str_mv 2011-12-02T18:13:08Z
dc.date.issued.fl_str_mv 2011-12-02
dc.type.es_ES.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12404/1089
url http://hdl.handle.net/20.500.12404/1089
dc.language.iso.es_ES.fl_str_mv spa
language spa
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.es_ES.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/pe/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/pe/
dc.publisher.es_ES.fl_str_mv Pontificia Universidad Católica del Perú
dc.publisher.country.es_ES.fl_str_mv PE
dc.source.none.fl_str_mv reponame:PUCP-Tesis
instname:Pontificia Universidad Católica del Perú
instacron:PUCP
instname_str Pontificia Universidad Católica del Perú
instacron_str PUCP
institution PUCP
reponame_str PUCP-Tesis
collection PUCP-Tesis
bitstream.url.fl_str_mv https://tesis.pucp.edu.pe/bitstreams/1a705972-bbcc-4fed-a51e-7618fd3d9bb3/download
https://tesis.pucp.edu.pe/bitstreams/6b8753c3-1896-44a7-b151-e191b6ed16a9/download
https://tesis.pucp.edu.pe/bitstreams/d254863b-088b-4cc9-8695-e1365dc42814/download
https://tesis.pucp.edu.pe/bitstreams/fb791cd7-bc68-4ef8-b8f8-2fa192c85425/download
bitstream.checksum.fl_str_mv 8a4605be74aa9ea9d79846c1fba20a33
35c56f82130a5fb9f1fc9a39de79bc18
d1e276d20025eb1f177d649c6649d0b6
f71af96e0112639ad233380f8fb5f088
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio de Tesis PUCP
repository.mail.fl_str_mv raul.sifuentes@pucp.pe
_version_ 1834737100906299392
spelling Salas Damián, Roberto Carlos2011-12-02T18:13:08Z2011-12-02T18:13:08Z20072011-12-02http://hdl.handle.net/20.500.12404/1089Los sistemas de corrección usan como principio la lingüística computacional. En este contexto, un computador realiza un análisis ortográfico de los caracteres reconocidos por un OCR (Optical Chapter Recognition). Un OCR es un software que extraen de una imagen los caracteres que componen un texto para almacenarlos en un formato con el cual puedan interactuar programas de edición de texto. El rendimiento de los sistemas de reconocimiento de caracteres es bajo cuando se trata de digitalizar documentos deteriorados debido a las manchas y otros factores que evitan que se reconozcan las palabras del texto original. Antes este problema, lo que se propone en esta tesis es la implementación de un sistema de corrección ortográfica a la salida del OCR, que permitirá mejorar su eficiencia al momento de reconocimiento del caracteres. De esta manera la digitalización de los documentos históricos podrá garantizar una calidad óptima. El sistema de corrección de ortográfica se basa en la búsqueda de patrones dentro de un texto. Esta búsqueda trata de encontrar todas las coincidencias de un patrón dentro de un texto, teniendo en consideración que la coincidencia de patrón con el texto puede tener un número limitado de diferencias. Este problema tiene aplicaciones en recuperación de información, biología computacional y procesamiento de señales, entre otras. Como conclusión principal se obtiene que con el modelo de corrección basado en la búsqueda de patrones se alcanza un rendimiento de 80%, además el tiempo de procesamiento requerido para analizar una palabra es de tan solo 0.1seg lo cual refleja un alto rendimiento. Con esto, podemos concluir también que la metodología desarrollada para realizar la corrección de las palabras es una buena opción para este objetivo.TesisspaPontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/2.5/pe/DigitalizaciónLingüística computacionalProcesamiento de imágenes digitalesSistemas de reconocimiento de patroneshttps://purl.org/pe-repo/ocde/ford#2.02.01Diseño de un corrector ortográfico para un sistema de reconocimiento óptico de caracteresinfo:eu-repo/semantics/bachelorThesisreponame:PUCP-Tesisinstname:Pontificia Universidad Católica del Perúinstacron:PUCPSUNEDUIngeniero ElectrónicoTítulo ProfesionalPontificia Universidad Católica del Perú. Facultad de Ciencias e IngenieríaIngeniería Electrónica712026https://purl.org/pe-repo/renati/level#tituloProfesionalhttps://purl.org/pe-repo/renati/type#tesisLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://tesis.pucp.edu.pe/bitstreams/1a705972-bbcc-4fed-a51e-7618fd3d9bb3/download8a4605be74aa9ea9d79846c1fba20a33MD52falseAnonymousREADORIGINALSALAS_DAMIAN_ROBERTO_CORRECTOR_ORTOGRAFICO_OPTICO.pdfSALAS_DAMIAN_ROBERTO_CORRECTOR_ORTOGRAFICO_OPTICO.pdfapplication/pdf1071499https://tesis.pucp.edu.pe/bitstreams/6b8753c3-1896-44a7-b151-e191b6ed16a9/download35c56f82130a5fb9f1fc9a39de79bc18MD51trueAnonymousREADTEXTSALAS_DAMIAN_ROBERTO_CORRECTOR_ORTOGRAFICO_OPTICO.pdf.txtSALAS_DAMIAN_ROBERTO_CORRECTOR_ORTOGRAFICO_OPTICO.pdf.txtExtracted texttext/plain83620https://tesis.pucp.edu.pe/bitstreams/d254863b-088b-4cc9-8695-e1365dc42814/downloadd1e276d20025eb1f177d649c6649d0b6MD55falseAnonymousREADTHUMBNAILSALAS_DAMIAN_ROBERTO_CORRECTOR_ORTOGRAFICO_OPTICO.pdf.jpgSALAS_DAMIAN_ROBERTO_CORRECTOR_ORTOGRAFICO_OPTICO.pdf.jpgIM Thumbnailimage/jpeg23578https://tesis.pucp.edu.pe/bitstreams/fb791cd7-bc68-4ef8-b8f8-2fa192c85425/downloadf71af96e0112639ad233380f8fb5f088MD56falseAnonymousREAD20.500.12404/1089oai:tesis.pucp.edu.pe:20.500.12404/10892025-03-12 18:15:58.712http://creativecommons.org/licenses/by-nc-nd/2.5/pe/info:eu-repo/semantics/openAccessopen.accesshttps://tesis.pucp.edu.peRepositorio de Tesis PUCPraul.sifuentes@pucp.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=
score 13.977305
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).