Reconocimiento de entidades nombradas para el idioma español utilizando Conditional Random Fields con características no supervisadas
Descripción del Articulo
El reconocimiento de entidades nombradas es una tarea relevante en el a´rea de Procesamiento de Lenguaje Natural, su funci´on es identificar entidades en textos para un idioma dado. El estudio de esta tarea se ha enfocado principalmente en el idioma ingl´es. Recientes estudios en el idioma ingl´es h...
Autor: | |
---|---|
Formato: | tesis de maestría |
Fecha de Publicación: | 2017 |
Institución: | Consejo Nacional de Ciencia Tecnología e Innovación |
Repositorio: | CONCYTEC-Institucional |
Lenguaje: | español |
OAI Identifier: | oai:repositorio.concytec.gob.pe:20.500.12390/1946 |
Enlace del recurso: | https://hdl.handle.net/20.500.12390/1946 |
Nivel de acceso: | acceso abierto |
Materia: | Word embeddings Procesamiento de lenguaje natural NER para español Conditional Random Fields https://purl.org/pe-repo/ocde/ford#1.02.01 |
Sumario: | El reconocimiento de entidades nombradas es una tarea relevante en el a´rea de Procesamiento de Lenguaje Natural, su funci´on es identificar entidades en textos para un idioma dado. El estudio de esta tarea se ha enfocado principalmente en el idioma ingl´es. Recientes estudios en el idioma ingl´es han mostrado que utilizar caracter´ısticas no supervisadas tales como word embeddings mejoran el reconocimiento de entidades nombradas. En este trabajo se investiga si caracter´ısticas no supervisadas pueden mejorar la tarea de NER supervisado en el idioma espan˜ol. Para esto, se propone utilizar caracter´ısticas no supervisadas mediante word representations y colocaciones, as´ı como caracter´ısticas adicionales en un clasificador Conditional Random Field (CRF). Resultados experimentales (82.44% de F-score en el corpus CoNLL-2002) muestran que el enfoque propuesto, en particular cuando se utiliza cross-lingual word representations, es comparable a abordajes de aprendizaje profundo, actualmente el estado del arte para NER en español. |
---|
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).