Implementación de un buscador semántico de documentos en el dominio de la lingüística
Descripción del Articulo
La World Wide Web (WWW) ha mejorado considerablemente el acceso a la información digital. La búsqueda y navegación en la Web se han convertido en parte de nuestras vidas diarias, siendo los motores de búsquedas y herramientas de navegación Web un estándar que ha cambiado la forma en la que buscamos...
Autor: | |
---|---|
Formato: | tesis de grado |
Fecha de Publicación: | 2017 |
Institución: | Pontificia Universidad Católica del Perú |
Repositorio: | PUCP-Institucional |
Lenguaje: | español |
OAI Identifier: | oai:repositorio.pucp.edu.pe:20.500.14657/148947 |
Enlace del recurso: | http://hdl.handle.net/20.500.12404/9162 |
Nivel de acceso: | acceso abierto |
Materia: | Motores de búsqueda Web semántica Computación semántica https://purl.org/pe-repo/ocde/ford#1.02.00 |
Sumario: | La World Wide Web (WWW) ha mejorado considerablemente el acceso a la información digital. La búsqueda y navegación en la Web se han convertido en parte de nuestras vidas diarias, siendo los motores de búsquedas y herramientas de navegación Web un estándar que ha cambiado la forma en la que buscamos e interactuamos con la información. Sin embargo, la Web como la conocemos hoy está diseñada para que la información contenida en las páginas o documentos sea entendible por las personas y no por las computadoras. Es decir, las computadoras no poseen de una manera para procesar la semántica o significado de la información. Esto ocasiona que solo se puedan realizar búsquedas sintácticas de la información, en lugar de búsquedas semánticas. Las búsquedas sintácticas consisten en la recuperación de aquellos documentos cuyo contenido posee las palabras o frases ingresadas por el usuario en la consulta. Se basan en la similitud de cadenas de caracteres (las ingresadas por el usuario y las que contiene el documento). El problema con las búsquedas sintácticas es que se limitan a esta coincidencia de palabras y no consideran el significado de la información, lo que ha sido demostrado que genera imprecisión (mucha información irrelevante) en los resultados. En este contexto, en el Departamento de Humanidades de la universidad existe la necesidad de recuperar información de aproximadamente 2000 documentos lingüísticos para fines académicos. Una búsqueda convencional o sintáctica no sería una buena solución, ya que como se mencionó anteriormente retorna mucha información irrelevante. Entonces, se puede definir el problema central del proyecto como la dificultad para obtener información relevante de documentos en el dominio de la lingüística. Como alternativa de solución, el presente proyecto de fin de carrera implementa un buscador que emplee los conceptos y principios de la Web Semántica. Este tipo de buscador se basa en el análisis semántico de la consulta ingresada por el usuario y del contenido de los documentos, recuperando aquellos cuya representación semántica coincide con la de la consulta. A diferencia de la búsqueda sintáctica, este enfoque analiza el significado de las palabras o frases y no solo su representación sintáctica. El beneficio de las búsquedas semánticas es que permiten alcanzar una mayor precisión en los resultados obtenidos; es decir, brindan resultados de mayor relevancia para el usuario. |
---|
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).