Implementación de una herramienta de automatización para la simplificación de textos en español

Descripción del Articulo

El acceso a la información es un derecho reconocido en el artículo 19 de la Declaración Universal de los Derechos Humanos e implica, entre muchas cosas, que la información disponible a través de los medios escritos sea comprensible para todos. Sin embargo, en pleno siglo XXI, todavía existe una brec...

Descripción completa

Detalles Bibliográficos
Autor: Muroya Tokushima, Luis Fernando
Formato: tesis de grado
Fecha de Publicación:2015
Institución:Pontificia Universidad Católica del Perú
Repositorio:PUCP-Tesis
Lenguaje:español
OAI Identifier:oai:tesis.pucp.edu.pe:20.500.12404/6366
Enlace del recurso:http://hdl.handle.net/20.500.12404/6366
Nivel de acceso:acceso abierto
Materia:Editores de texto (Programas para computadoras)--Desarrollo
Editores de texto (Programas para computadoras)--Español
https://purl.org/pe-repo/ocde/ford#1.02.00
id PUCP_53a223e598aeea5fb8ba0b5d9fbc3a22
oai_identifier_str oai:tesis.pucp.edu.pe:20.500.12404/6366
network_acronym_str PUCP
network_name_str PUCP-Tesis
repository_id_str .
dc.title.es_ES.fl_str_mv Implementación de una herramienta de automatización para la simplificación de textos en español
title Implementación de una herramienta de automatización para la simplificación de textos en español
spellingShingle Implementación de una herramienta de automatización para la simplificación de textos en español
Muroya Tokushima, Luis Fernando
Editores de texto (Programas para computadoras)--Desarrollo
Editores de texto (Programas para computadoras)--Español
https://purl.org/pe-repo/ocde/ford#1.02.00
title_short Implementación de una herramienta de automatización para la simplificación de textos en español
title_full Implementación de una herramienta de automatización para la simplificación de textos en español
title_fullStr Implementación de una herramienta de automatización para la simplificación de textos en español
title_full_unstemmed Implementación de una herramienta de automatización para la simplificación de textos en español
title_sort Implementación de una herramienta de automatización para la simplificación de textos en español
author Muroya Tokushima, Luis Fernando
author_facet Muroya Tokushima, Luis Fernando
author_role author
dc.contributor.advisor.fl_str_mv Alva Manchego, Fernando Emilio
dc.contributor.author.fl_str_mv Muroya Tokushima, Luis Fernando
dc.subject.es_ES.fl_str_mv Editores de texto (Programas para computadoras)--Desarrollo
Editores de texto (Programas para computadoras)--Español
topic Editores de texto (Programas para computadoras)--Desarrollo
Editores de texto (Programas para computadoras)--Español
https://purl.org/pe-repo/ocde/ford#1.02.00
dc.subject.ocde.es_ES.fl_str_mv https://purl.org/pe-repo/ocde/ford#1.02.00
description El acceso a la información es un derecho reconocido en el artículo 19 de la Declaración Universal de los Derechos Humanos e implica, entre muchas cosas, que la información disponible a través de los medios escritos sea comprensible para todos. Sin embargo, en pleno siglo XXI, todavía existe una brecha insalvable entre la idealidad y la realidad: muchas personas no pueden entender los textos porque son muy complejos para ellos. Los motivos son muy diversos: una educación deficiente, alguna forma de discapacidad, factores exógenos, etc. Para que estas personas gocen de un verdadero acceso a la información, es necesario que la misma sea transformada y reescrita de forma comprensible para ellas, proceso conocido como simplificación textual. En vista que llevarla a cabo manualmente resulta costoso, en los últimos años se ha vuelto de interés automatizar este proceso. En el caso del español, un primer avance se logró con el proyecto Simplext (2009), durante el cual fue construida una herramienta de simplificación léxico-sintáctica con un enfoque primordialmente basado en reglas. En este trabajo se desarrolló una herramienta de simplificación que opera a nivel sintáctico y utiliza clasificadores como elementos de decisión para escoger las operaciones de simplificación sintáctica que deben ser aplicadas sobre un texto. Para construir esta herramienta, primero se anotó el corpus paralelo recopilado durante el proyecto Simplext con las operaciones de simplificación que se llevaron a cabo oración por oración. Asimismo, se entrenó clasificadores binarios y se llevó a cabo una experimentación numérica con la finalidad de definir cuál era el más adecuado para cada operación. Finalmente, se implementó una interfaz web que permite al usuario ingresar un texto y visualizar su versión simplificada. Luego de comparar el índice de perspicuidad (métrica de complejidad textual) de textos antes y después de pasar por la herramienta, se pudo concluir que la misma sí es capaz de simplificar textos, aunque no de una forma tan eficiente como un ser humano. Esta diferencia era esperada debido a que no se incluyó un módulo de simplificación léxica y porque un agente humano tiene experiencia y conocimiento que una máquina carece. En un trabajo futuro podría integrarse dicho módulo para mejorar el funcionamiento de la herramienta.
publishDate 2015
dc.date.accessioned.es_ES.fl_str_mv 2015-10-27T16:52:25Z
dc.date.available.es_ES.fl_str_mv 2015-10-27T16:52:25Z
dc.date.created.es_ES.fl_str_mv 2015
dc.date.issued.fl_str_mv 2015-10-27
dc.type.es_ES.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12404/6366
url http://hdl.handle.net/20.500.12404/6366
dc.language.iso.es_ES.fl_str_mv spa
language spa
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.es_ES.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/pe/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/2.5/pe/
dc.publisher.es_ES.fl_str_mv Pontificia Universidad Católica del Perú
dc.publisher.country.es_ES.fl_str_mv PE
dc.source.none.fl_str_mv reponame:PUCP-Tesis
instname:Pontificia Universidad Católica del Perú
instacron:PUCP
instname_str Pontificia Universidad Católica del Perú
instacron_str PUCP
institution PUCP
reponame_str PUCP-Tesis
collection PUCP-Tesis
bitstream.url.fl_str_mv https://tesis.pucp.edu.pe/bitstreams/2dfb3f59-d88f-4d5a-a5e1-7f827306e4a8/download
https://tesis.pucp.edu.pe/bitstreams/03065679-0d2c-4b9f-81d3-213c470a0e16/download
https://tesis.pucp.edu.pe/bitstreams/b57db5c5-a42f-463a-81dc-9c2a1640ca38/download
https://tesis.pucp.edu.pe/bitstreams/7973a456-5dbe-4c53-bbfd-38f788073344/download
https://tesis.pucp.edu.pe/bitstreams/f455cb22-9cb9-4efa-b5d0-4fd29f6de0c3/download
https://tesis.pucp.edu.pe/bitstreams/291a77d0-4be0-43d9-8fb7-789435b05ceb/download
https://tesis.pucp.edu.pe/bitstreams/458760a2-a200-491f-a6a6-fe47acf0d77b/download
bitstream.checksum.fl_str_mv bd6204b553bc7288f09a1aeb11496d37
0f3d9e16a3c266578f85b901410768fc
8a4605be74aa9ea9d79846c1fba20a33
da19ca1188e6ca545e2e0601b4dcb953
6ddc70f842c810f8d73063ef3c45dd6c
12762721b0e0a5d638c85d4c846fa092
0357277c822f104b7adef3a8dc761d38
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio de Tesis PUCP
repository.mail.fl_str_mv raul.sifuentes@pucp.pe
_version_ 1834737000660336640
spelling Alva Manchego, Fernando EmilioMuroya Tokushima, Luis Fernando2015-10-27T16:52:25Z2015-10-27T16:52:25Z20152015-10-27http://hdl.handle.net/20.500.12404/6366El acceso a la información es un derecho reconocido en el artículo 19 de la Declaración Universal de los Derechos Humanos e implica, entre muchas cosas, que la información disponible a través de los medios escritos sea comprensible para todos. Sin embargo, en pleno siglo XXI, todavía existe una brecha insalvable entre la idealidad y la realidad: muchas personas no pueden entender los textos porque son muy complejos para ellos. Los motivos son muy diversos: una educación deficiente, alguna forma de discapacidad, factores exógenos, etc. Para que estas personas gocen de un verdadero acceso a la información, es necesario que la misma sea transformada y reescrita de forma comprensible para ellas, proceso conocido como simplificación textual. En vista que llevarla a cabo manualmente resulta costoso, en los últimos años se ha vuelto de interés automatizar este proceso. En el caso del español, un primer avance se logró con el proyecto Simplext (2009), durante el cual fue construida una herramienta de simplificación léxico-sintáctica con un enfoque primordialmente basado en reglas. En este trabajo se desarrolló una herramienta de simplificación que opera a nivel sintáctico y utiliza clasificadores como elementos de decisión para escoger las operaciones de simplificación sintáctica que deben ser aplicadas sobre un texto. Para construir esta herramienta, primero se anotó el corpus paralelo recopilado durante el proyecto Simplext con las operaciones de simplificación que se llevaron a cabo oración por oración. Asimismo, se entrenó clasificadores binarios y se llevó a cabo una experimentación numérica con la finalidad de definir cuál era el más adecuado para cada operación. Finalmente, se implementó una interfaz web que permite al usuario ingresar un texto y visualizar su versión simplificada. Luego de comparar el índice de perspicuidad (métrica de complejidad textual) de textos antes y después de pasar por la herramienta, se pudo concluir que la misma sí es capaz de simplificar textos, aunque no de una forma tan eficiente como un ser humano. Esta diferencia era esperada debido a que no se incluyó un módulo de simplificación léxica y porque un agente humano tiene experiencia y conocimiento que una máquina carece. En un trabajo futuro podría integrarse dicho módulo para mejorar el funcionamiento de la herramienta.TesisspaPontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-nc-nd/2.5/pe/Editores de texto (Programas para computadoras)--DesarrolloEditores de texto (Programas para computadoras)--Españolhttps://purl.org/pe-repo/ocde/ford#1.02.00Implementación de una herramienta de automatización para la simplificación de textos en españolinfo:eu-repo/semantics/bachelorThesisreponame:PUCP-Tesisinstname:Pontificia Universidad Católica del Perúinstacron:PUCPSUNEDUIngeniero InformáticoTítulo ProfesionalPontificia Universidad Católica del Perú. Facultad de Ciencias e IngenieríaIngeniería Informática612286https://purl.org/pe-repo/renati/level#tituloProfesionalhttps://purl.org/pe-repo/renati/type#tesisORIGINALMUROYA_LUIS_IMPLEMENTACION_HERRAMIENTA_AUTOMATIZACION.pdfMUROYA_LUIS_IMPLEMENTACION_HERRAMIENTA_AUTOMATIZACION.pdfapplication/pdf17341826https://tesis.pucp.edu.pe/bitstreams/2dfb3f59-d88f-4d5a-a5e1-7f827306e4a8/downloadbd6204b553bc7288f09a1aeb11496d37MD51trueAnonymousREADMUROYA_LUIS_IMPLEMENTACION_HERRAMIENTA_AUTOMATIZACION_ANEXOS.pdfMUROYA_LUIS_IMPLEMENTACION_HERRAMIENTA_AUTOMATIZACION_ANEXOS.pdfapplication/pdf7209083https://tesis.pucp.edu.pe/bitstreams/03065679-0d2c-4b9f-81d3-213c470a0e16/download0f3d9e16a3c266578f85b901410768fcMD52falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://tesis.pucp.edu.pe/bitstreams/b57db5c5-a42f-463a-81dc-9c2a1640ca38/download8a4605be74aa9ea9d79846c1fba20a33MD53falseAnonymousREADTEXTMUROYA_LUIS_IMPLEMENTACION_HERRAMIENTA_AUTOMATIZACION.pdf.txtMUROYA_LUIS_IMPLEMENTACION_HERRAMIENTA_AUTOMATIZACION.pdf.txtExtracted texttext/plain181047https://tesis.pucp.edu.pe/bitstreams/7973a456-5dbe-4c53-bbfd-38f788073344/downloadda19ca1188e6ca545e2e0601b4dcb953MD58falseAnonymousREADMUROYA_LUIS_IMPLEMENTACION_HERRAMIENTA_AUTOMATIZACION_ANEXOS.pdf.txtMUROYA_LUIS_IMPLEMENTACION_HERRAMIENTA_AUTOMATIZACION_ANEXOS.pdf.txtExtracted texttext/plain38690https://tesis.pucp.edu.pe/bitstreams/f455cb22-9cb9-4efa-b5d0-4fd29f6de0c3/download6ddc70f842c810f8d73063ef3c45dd6cMD510falseAnonymousREADTHUMBNAILMUROYA_LUIS_IMPLEMENTACION_HERRAMIENTA_AUTOMATIZACION.pdf.jpgMUROYA_LUIS_IMPLEMENTACION_HERRAMIENTA_AUTOMATIZACION.pdf.jpgIM Thumbnailimage/jpeg28254https://tesis.pucp.edu.pe/bitstreams/291a77d0-4be0-43d9-8fb7-789435b05ceb/download12762721b0e0a5d638c85d4c846fa092MD59falseAnonymousREADMUROYA_LUIS_IMPLEMENTACION_HERRAMIENTA_AUTOMATIZACION_ANEXOS.pdf.jpgMUROYA_LUIS_IMPLEMENTACION_HERRAMIENTA_AUTOMATIZACION_ANEXOS.pdf.jpgIM Thumbnailimage/jpeg44258https://tesis.pucp.edu.pe/bitstreams/458760a2-a200-491f-a6a6-fe47acf0d77b/download0357277c822f104b7adef3a8dc761d38MD511falseAnonymousREAD20.500.12404/6366oai:tesis.pucp.edu.pe:20.500.12404/63662025-03-12 17:55:59.688http://creativecommons.org/licenses/by-nc-nd/2.5/pe/info:eu-repo/semantics/openAccessopen.accesshttps://tesis.pucp.edu.peRepositorio de Tesis PUCPraul.sifuentes@pucp.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=
score 13.917434
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).