Recuperación semántica de la información usando la similitud distribucional

Descripción del Articulo

Recuperar información con un criterio semántico desde la Web, en donde la información almacenada no es estructurada, se requiere de mecanismos complejos y diversos que consideren el procesamiento de lenguaje natural. En esta tesis se implementó y analizó un método de recuperación semántico de la inf...

Descripción completa

Detalles Bibliográficos
Autor: Holguin Holguin, Edgar
Formato: tesis de maestría
Fecha de Publicación:2013
Institución:Universidad Nacional Del Altiplano
Repositorio:UNAP-Institucional
Lenguaje:español
OAI Identifier:oai:https://repositorio.unap.edu.pe:20.500.14082/365
Enlace del recurso:http://repositorio.unap.edu.pe/handle/20.500.14082/365
Nivel de acceso:acceso abierto
Materia:Informática
Descripción
Sumario:Recuperar información con un criterio semántico desde la Web, en donde la información almacenada no es estructurada, se requiere de mecanismos complejos y diversos que consideren el procesamiento de lenguaje natural. En esta tesis se implementó y analizó un método de recuperación semántico de la información, partiendo de la premisa que si existen palabras que coocurren en un contexto determinado, éstas tienen una relación semántica. Para la implementación de un mecanismo de recuperación sobre una colección de documentos se hizo necesario un procesamiento, representación y análisis de relación de los términos. El Modelo Vectorial para la recuperación semántica de la información utilizado, permitió definir las premisas necesarias e importantes para determinar si un conjunto de palabras son relevantes a la necesidad de información, calculando la medida de similitud y establecimiento del ranking de vocablos más semejantes semánticamente. La lejanía o cercanía de dos vocablos se determinó utilizando la similitud distribucional representado por un vector de coocurrencia y se cuantificó mediante el coseno del ángulo que forman sus vectores. Al evaluar el rendimiento del sistema de recuperación de la información, se concluyó que es importante el corpus utilizado en la construcción del mismo así como el pre procesamiento, estructura y técnicas de recuperación
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).