Diseño de un corrector ortográfico para un sistema de reconocimiento óptico de caracteres
Descripción del Articulo
        Los sistemas de corrección usan como principio la lingüística computacional. En este contexto, un computador realiza un análisis ortográfico de los caracteres reconocidos por un OCR (Optical Chapter Recognition). Un OCR es un software que extraen de una imagen los caracteres que componen un texto pa...
              
            
    
                        | Autor: | |
|---|---|
| Formato: | tesis de grado | 
| Fecha de Publicación: | 2007 | 
| Institución: | Pontificia Universidad Católica del Perú | 
| Repositorio: | PUCP-Tesis | 
| Lenguaje: | español | 
| OAI Identifier: | oai:tesis.pucp.edu.pe:20.500.12404/1089 | 
| Enlace del recurso: | http://hdl.handle.net/20.500.12404/1089 | 
| Nivel de acceso: | acceso abierto | 
| Materia: | Digitalización Lingüística computacional Procesamiento de imágenes digitales Sistemas de reconocimiento de patrones https://purl.org/pe-repo/ocde/ford#2.02.01  | 
| id | 
                  PUCP_f4e20203b8b40c4d08809208c5fd30d0 | 
    
|---|---|
| oai_identifier_str | 
                  oai:tesis.pucp.edu.pe:20.500.12404/1089 | 
    
| network_acronym_str | 
                  PUCP | 
    
| network_name_str | 
                  PUCP-Tesis | 
    
| repository_id_str | 
                  . | 
    
| dc.title.es_ES.fl_str_mv | 
                  Diseño de un corrector ortográfico para un sistema de reconocimiento óptico de caracteres | 
    
| title | 
                  Diseño de un corrector ortográfico para un sistema de reconocimiento óptico de caracteres | 
    
| spellingShingle | 
                  Diseño de un corrector ortográfico para un sistema de reconocimiento óptico de caracteres Salas Damián, Roberto Carlos Digitalización Lingüística computacional Procesamiento de imágenes digitales Sistemas de reconocimiento de patrones https://purl.org/pe-repo/ocde/ford#2.02.01  | 
    
| title_short | 
                  Diseño de un corrector ortográfico para un sistema de reconocimiento óptico de caracteres | 
    
| title_full | 
                  Diseño de un corrector ortográfico para un sistema de reconocimiento óptico de caracteres | 
    
| title_fullStr | 
                  Diseño de un corrector ortográfico para un sistema de reconocimiento óptico de caracteres | 
    
| title_full_unstemmed | 
                  Diseño de un corrector ortográfico para un sistema de reconocimiento óptico de caracteres | 
    
| title_sort | 
                  Diseño de un corrector ortográfico para un sistema de reconocimiento óptico de caracteres | 
    
| author | 
                  Salas Damián, Roberto Carlos | 
    
| author_facet | 
                  Salas Damián, Roberto Carlos | 
    
| author_role | 
                  author | 
    
| dc.contributor.author.fl_str_mv | 
                  Salas Damián, Roberto Carlos | 
    
| dc.subject.es_ES.fl_str_mv | 
                  Digitalización Lingüística computacional Procesamiento de imágenes digitales Sistemas de reconocimiento de patrones  | 
    
| topic | 
                  Digitalización Lingüística computacional Procesamiento de imágenes digitales Sistemas de reconocimiento de patrones https://purl.org/pe-repo/ocde/ford#2.02.01  | 
    
| dc.subject.ocde.es_ES.fl_str_mv | 
                  https://purl.org/pe-repo/ocde/ford#2.02.01 | 
    
| description | 
                  Los sistemas de corrección usan como principio la lingüística computacional. En este contexto, un computador realiza un análisis ortográfico de los caracteres reconocidos por un OCR (Optical Chapter Recognition). Un OCR es un software que extraen de una imagen los caracteres que componen un texto para almacenarlos en un formato con el cual puedan interactuar programas de edición de texto. El rendimiento de los sistemas de reconocimiento de caracteres es bajo cuando se trata de digitalizar documentos deteriorados debido a las manchas y otros factores que evitan que se reconozcan las palabras del texto original. Antes este problema, lo que se propone en esta tesis es la implementación de un sistema de corrección ortográfica a la salida del OCR, que permitirá mejorar su eficiencia al momento de reconocimiento del caracteres. De esta manera la digitalización de los documentos históricos podrá garantizar una calidad óptima. El sistema de corrección de ortográfica se basa en la búsqueda de patrones dentro de un texto. Esta búsqueda trata de encontrar todas las coincidencias de un patrón dentro de un texto, teniendo en consideración que la coincidencia de patrón con el texto puede tener un número limitado de diferencias. Este problema tiene aplicaciones en recuperación de información, biología computacional y procesamiento de señales, entre otras. Como conclusión principal se obtiene que con el modelo de corrección basado en la búsqueda de patrones se alcanza un rendimiento de 80%, además el tiempo de procesamiento requerido para analizar una palabra es de tan solo 0.1seg lo cual refleja un alto rendimiento. Con esto, podemos concluir también que la metodología desarrollada para realizar la corrección de las palabras es una buena opción para este objetivo. | 
    
| publishDate | 
                  2007 | 
    
| dc.date.created.es_ES.fl_str_mv | 
                  2007 | 
    
| dc.date.accessioned.es_ES.fl_str_mv | 
                  2011-12-02T18:13:08Z | 
    
| dc.date.available.es_ES.fl_str_mv | 
                  2011-12-02T18:13:08Z | 
    
| dc.date.issued.fl_str_mv | 
                  2011-12-02 | 
    
| dc.type.es_ES.fl_str_mv | 
                  info:eu-repo/semantics/bachelorThesis | 
    
| format | 
                  bachelorThesis | 
    
| dc.identifier.uri.none.fl_str_mv | 
                  http://hdl.handle.net/20.500.12404/1089 | 
    
| url | 
                  http://hdl.handle.net/20.500.12404/1089 | 
    
| dc.language.iso.es_ES.fl_str_mv | 
                  spa | 
    
| language | 
                  spa | 
    
| dc.relation.ispartof.fl_str_mv | 
                  SUNEDU | 
    
| dc.rights.es_ES.fl_str_mv | 
                  info:eu-repo/semantics/openAccess | 
    
| dc.rights.uri.*.fl_str_mv | 
                  http://creativecommons.org/licenses/by-nc-nd/2.5/pe/ | 
    
| eu_rights_str_mv | 
                  openAccess | 
    
| rights_invalid_str_mv | 
                  http://creativecommons.org/licenses/by-nc-nd/2.5/pe/ | 
    
| dc.publisher.es_ES.fl_str_mv | 
                  Pontificia Universidad Católica del Perú | 
    
| dc.publisher.country.es_ES.fl_str_mv | 
                  PE | 
    
| dc.source.none.fl_str_mv | 
                  reponame:PUCP-Tesis instname:Pontificia Universidad Católica del Perú instacron:PUCP  | 
    
| instname_str | 
                  Pontificia Universidad Católica del Perú | 
    
| instacron_str | 
                  PUCP | 
    
| institution | 
                  PUCP | 
    
| reponame_str | 
                  PUCP-Tesis | 
    
| collection | 
                  PUCP-Tesis | 
    
| bitstream.url.fl_str_mv | 
                  https://tesis.pucp.edu.pe/bitstreams/1a705972-bbcc-4fed-a51e-7618fd3d9bb3/download https://tesis.pucp.edu.pe/bitstreams/6b8753c3-1896-44a7-b151-e191b6ed16a9/download https://tesis.pucp.edu.pe/bitstreams/d254863b-088b-4cc9-8695-e1365dc42814/download https://tesis.pucp.edu.pe/bitstreams/fb791cd7-bc68-4ef8-b8f8-2fa192c85425/download  | 
    
| bitstream.checksum.fl_str_mv | 
                  8a4605be74aa9ea9d79846c1fba20a33 35c56f82130a5fb9f1fc9a39de79bc18 d1e276d20025eb1f177d649c6649d0b6 f71af96e0112639ad233380f8fb5f088  | 
    
| bitstream.checksumAlgorithm.fl_str_mv | 
                  MD5 MD5 MD5 MD5  | 
    
| repository.name.fl_str_mv | 
                  Repositorio de Tesis PUCP | 
    
| repository.mail.fl_str_mv | 
                  raul.sifuentes@pucp.pe | 
    
| _version_ | 
                  1834737100906299392 | 
    
| spelling | 
                  Salas Damián, Roberto Carlos2011-12-02T18:13:08Z2011-12-02T18:13:08Z20072011-12-02http://hdl.handle.net/20.500.12404/1089Los sistemas de corrección usan como principio la lingüística computacional. En este contexto, un computador realiza un análisis ortográfico de los caracteres reconocidos por un OCR (Optical Chapter Recognition). Un OCR es un software que extraen de una imagen los caracteres que componen un texto para almacenarlos en un formato con el cual puedan interactuar programas de edición de texto. El rendimiento de los sistemas de reconocimiento de caracteres es bajo cuando se trata de digitalizar documentos deteriorados debido a las manchas y otros factores que evitan que se reconozcan las palabras del texto original. Antes este problema, lo que se propone en esta tesis es la implementación de un sistema de corrección ortográfica a la salida del OCR, que permitirá mejorar su eficiencia al momento de reconocimiento del caracteres. De esta manera la digitalización de los documentos históricos podrá garantizar una calidad óptima. El sistema de corrección de ortográfica se basa en la búsqueda de patrones dentro de un texto. Esta búsqueda trata de encontrar todas las coincidencias de un patrón dentro de un texto, teniendo en consideración que la coincidencia de patrón con el texto puede tener un número limitado de diferencias. Este problema tiene aplicaciones en recuperación de información, biología computacional y procesamiento de señales, entre otras. Como conclusión principal se obtiene que con el modelo de corrección basado en la búsqueda de patrones se alcanza un rendimiento de 80%, además el tiempo de procesamiento requerido para analizar una palabra es de tan solo 0.1seg lo cual refleja un alto rendimiento. Con esto, podemos concluir también que la metodología desarrollada para realizar la corrección de las palabras es una buena opción para este objetivo.TesisspaPontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/2.5/pe/DigitalizaciónLingüística computacionalProcesamiento de imágenes digitalesSistemas de reconocimiento de patroneshttps://purl.org/pe-repo/ocde/ford#2.02.01Diseño de un corrector ortográfico para un sistema de reconocimiento óptico de caracteresinfo:eu-repo/semantics/bachelorThesisreponame:PUCP-Tesisinstname:Pontificia Universidad Católica del Perúinstacron:PUCPSUNEDUIngeniero ElectrónicoTítulo ProfesionalPontificia Universidad Católica del Perú. Facultad de Ciencias e IngenieríaIngeniería Electrónica712026https://purl.org/pe-repo/renati/level#tituloProfesionalhttps://purl.org/pe-repo/renati/type#tesisLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://tesis.pucp.edu.pe/bitstreams/1a705972-bbcc-4fed-a51e-7618fd3d9bb3/download8a4605be74aa9ea9d79846c1fba20a33MD52falseAnonymousREADORIGINALSALAS_DAMIAN_ROBERTO_CORRECTOR_ORTOGRAFICO_OPTICO.pdfSALAS_DAMIAN_ROBERTO_CORRECTOR_ORTOGRAFICO_OPTICO.pdfapplication/pdf1071499https://tesis.pucp.edu.pe/bitstreams/6b8753c3-1896-44a7-b151-e191b6ed16a9/download35c56f82130a5fb9f1fc9a39de79bc18MD51trueAnonymousREADTEXTSALAS_DAMIAN_ROBERTO_CORRECTOR_ORTOGRAFICO_OPTICO.pdf.txtSALAS_DAMIAN_ROBERTO_CORRECTOR_ORTOGRAFICO_OPTICO.pdf.txtExtracted texttext/plain83620https://tesis.pucp.edu.pe/bitstreams/d254863b-088b-4cc9-8695-e1365dc42814/downloadd1e276d20025eb1f177d649c6649d0b6MD55falseAnonymousREADTHUMBNAILSALAS_DAMIAN_ROBERTO_CORRECTOR_ORTOGRAFICO_OPTICO.pdf.jpgSALAS_DAMIAN_ROBERTO_CORRECTOR_ORTOGRAFICO_OPTICO.pdf.jpgIM Thumbnailimage/jpeg23578https://tesis.pucp.edu.pe/bitstreams/fb791cd7-bc68-4ef8-b8f8-2fa192c85425/downloadf71af96e0112639ad233380f8fb5f088MD56falseAnonymousREAD20.500.12404/1089oai:tesis.pucp.edu.pe:20.500.12404/10892025-03-12 18:15:58.712http://creativecommons.org/licenses/by-nc-nd/2.5/pe/info:eu-repo/semantics/openAccessopen.accesshttps://tesis.pucp.edu.peRepositorio de Tesis PUCPraul.sifuentes@pucp.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= | 
    
| score | 
                  13.977305 | 
    
 Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
    La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).