Extracción de textos escritos en lenguas nativas peruanas utilizando OCR
Descripción del Articulo
La incorporación de las lenguas minoritarias en el desarrollo de las tecnologías del lenguaje plantea un desafío debido a su limitada presencia digital y la prevalencia de recursos en formatos poco accesibles. Este trabajo aborda este problema mediante la digitalización de documentos antigüos escrit...
Autor: | |
---|---|
Formato: | tesis de maestría |
Fecha de Publicación: | 2024 |
Institución: | Pontificia Universidad Católica del Perú |
Repositorio: | PUCP-Tesis |
Lenguaje: | español |
OAI Identifier: | oai:tesis.pucp.edu.pe:20.500.12404/31148 |
Enlace del recurso: | http://hdl.handle.net/20.500.12404/31148 |
Nivel de acceso: | acceso embargado |
Materia: | Lenguas indigenas--Perú Reconocimiento óptico de caracteres Procesamiento de lenguaje natural (Computación) https://purl.org/pe-repo/ocde/ford#5.08.02 |
Sumario: | La incorporación de las lenguas minoritarias en el desarrollo de las tecnologías del lenguaje plantea un desafío debido a su limitada presencia digital y la prevalencia de recursos en formatos poco accesibles. Este trabajo aborda este problema mediante la digitalización de documentos antigüos escritos en cuatro lenguas nativas peruanas (Asháninka, Shipibo-Konibo, Yanesha y Yine), utilizando modelos de Reconocimiento Óptico de Caracteres (OCR) y aplicando métodos de corrección para minimizar los errores en la extracción de los textos. Las principales contribuciones de este estudio incluyen la creación de un conjunto de datos anotado con 454 imágenes de páginas escaneadas, el desarrollo de un módulo para corregir la alineación de las transcripciones generadas por los OCR y la implementación de una interfaz web para facilitar la búsqueda de textos dentro del conjunto de datos. |
---|
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).