Exploratory analysis of mass spectrometry data based on graph embeddings

Descripción del Articulo

El análisis metabolómico basado en la espectrometría de masas (EM) es una herramienta poderosa, pero conlleva sus propios retos. El flujo de trabajo de la EM implica múltiples pasos antes de su interpretación, el cual típicamente se denomina minería de datos. La extracción de datos consiste en un pr...

Descripción completa

Detalles Bibliográficos
Autor: Alvarez Mamani, Edwin
Formato: tesis doctoral
Fecha de Publicación:2025
Institución:Pontificia Universidad Católica del Perú
Repositorio:PUCP-Tesis
Lenguaje:inglés
OAI Identifier:oai:tesis.pucp.edu.pe:20.500.12404/31234
Enlace del recurso:http://hdl.handle.net/20.500.12404/31234
Nivel de acceso:acceso abierto
Materia:Espectometría de masas
Redes neuronales (Computación)
Teoría de grafos
Aprendizaje profundo (Aprendizaje automático)
https://purl.org/pe-repo/ocde/ford#2.00.00
id PUCP_037d93694b02c5e6c12c781a85d9e38f
oai_identifier_str oai:tesis.pucp.edu.pe:20.500.12404/31234
network_acronym_str PUCP
network_name_str PUCP-Tesis
repository_id_str .
dc.title.none.fl_str_mv Exploratory analysis of mass spectrometry data based on graph embeddings
title Exploratory analysis of mass spectrometry data based on graph embeddings
spellingShingle Exploratory analysis of mass spectrometry data based on graph embeddings
Alvarez Mamani, Edwin
Espectometría de masas
Redes neuronales (Computación)
Teoría de grafos
Aprendizaje profundo (Aprendizaje automático)
https://purl.org/pe-repo/ocde/ford#2.00.00
title_short Exploratory analysis of mass spectrometry data based on graph embeddings
title_full Exploratory analysis of mass spectrometry data based on graph embeddings
title_fullStr Exploratory analysis of mass spectrometry data based on graph embeddings
title_full_unstemmed Exploratory analysis of mass spectrometry data based on graph embeddings
title_sort Exploratory analysis of mass spectrometry data based on graph embeddings
author Alvarez Mamani, Edwin
author_facet Alvarez Mamani, Edwin
author_role author
dc.contributor.advisor.fl_str_mv Ibáñez Gabilondo, Alfredo Jesús
dc.contributor.author.fl_str_mv Alvarez Mamani, Edwin
dc.subject.none.fl_str_mv Espectometría de masas
Redes neuronales (Computación)
Teoría de grafos
Aprendizaje profundo (Aprendizaje automático)
topic Espectometría de masas
Redes neuronales (Computación)
Teoría de grafos
Aprendizaje profundo (Aprendizaje automático)
https://purl.org/pe-repo/ocde/ford#2.00.00
dc.subject.ocde.none.fl_str_mv https://purl.org/pe-repo/ocde/ford#2.00.00
description El análisis metabolómico basado en la espectrometría de masas (EM) es una herramienta poderosa, pero conlleva sus propios retos. El flujo de trabajo de la EM implica múltiples pasos antes de su interpretación, el cual típicamente se denomina minería de datos. La extracción de datos consiste en un proceso de dos pasos. Primero, los datos de la EM se ordenan, organizan y presentan para su filtrado antes de ser analizados. Segundo, los datos filtrados y reducidos se analizan utilizando técnicas estadísticas para eliminar más variabilidad. Esto es especialmente cierto en el caso de los estudios metabolómicos no dirigidos (untargeted) basados en EM, que se centran en comprender los cambios en las redes metabólicas. Dado que la tarea de filtrar e identificar cambios a partir de un gran conjunto de datos es un reto, se necesitan técnicas automatizadas para la minería de datos metabolómicos no dirigidos basados en MS. El enfoque tradicional basado en estadísticas tiende a filtrar en exceso los datos en bruto, lo que puede dar lugar a la eliminación de datos relevantes y conducir a la identificación de menos cambios metabolómicos. Esta limitación del enfoque tradicional subraya la necesidad de un nuevo método. En este trabajo, presentamos un nuevo enfoque de aprendizaje profundo que utiliza node embeddings (impulsado por Graph Neural Networks), edge embeddings y un algoritmo de detección de anomalías para analizar los datos generados por la metabolómica basada en EM llamado GEMNA (Graph Embedding-based Metabolomics Network Analysis), Por ejemplo, para un estudio de volatilidad no dirigida en caramelos Mentos, los grupos de datos producidos por GEMNA fueron mejores que los de las técnicas tradicionales, es decir, GEMNA consigue una silhouette score = 0.409, vs el enfoque tradicional que consigue una silhouette score = −0.004.
publishDate 2025
dc.date.accessioned.none.fl_str_mv 2025-07-17T00:21:25Z
dc.date.available.none.fl_str_mv 2025-07-17T00:21:25Z
dc.date.created.none.fl_str_mv 2025
dc.date.issued.fl_str_mv 2025-07-17
dc.type.none.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12404/31234
url http://hdl.handle.net/20.500.12404/31234
dc.language.iso.none.fl_str_mv eng
language eng
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.none.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.none.fl_str_mv http://creativecommons.org/licenses/by-sa/2.5/pe/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-sa/2.5/pe/
dc.publisher.es_ES.fl_str_mv Pontificia Universidad Católica del Perú
dc.publisher.country.none.fl_str_mv PE
dc.source.none.fl_str_mv reponame:PUCP-Tesis
instname:Pontificia Universidad Católica del Perú
instacron:PUCP
instname_str Pontificia Universidad Católica del Perú
instacron_str PUCP
institution PUCP
reponame_str PUCP-Tesis
collection PUCP-Tesis
bitstream.url.fl_str_mv https://tesis.pucp.edu.pe/bitstreams/e2b9a497-9a12-452c-b5a5-ed52ce24302f/download
https://tesis.pucp.edu.pe/bitstreams/ee5915fc-bec5-425a-9300-8516117e72c9/download
https://tesis.pucp.edu.pe/bitstreams/8ad838ba-99e6-4858-bfc2-4296fa997bcf/download
https://tesis.pucp.edu.pe/bitstreams/3fa84132-2134-4177-bb00-5c6057472625/download
https://tesis.pucp.edu.pe/bitstreams/2566c3cc-dc8e-495e-8bab-104c51395daf/download
https://tesis.pucp.edu.pe/bitstreams/53f6ae2a-33ef-4fb1-9e4f-9a73e166f1be/download
https://tesis.pucp.edu.pe/bitstreams/7f07295e-8664-4102-a3ca-2fe086ee59d7/download
bitstream.checksum.fl_str_mv a063162222231d769ef3e5fcea7038bc
1b509113d4c6d1ebc5982a10c676d64a
85e50b88013d0c13f136d8bfc3dd4616
bb9bdc0b3349e4284e09149f943790b4
231c8bc5b83cf8a62574292fd33720f4
2aae20b0be8563f38e61f6dab5b24126
88e4798e72271c98955c7f3ec5ed8370
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio de Tesis PUCP
repository.mail.fl_str_mv raul.sifuentes@pucp.pe
_version_ 1861372620833816576
spelling Ibáñez Gabilondo, Alfredo JesúsAlvarez Mamani, Edwin2025-07-17T00:21:25Z2025-07-17T00:21:25Z20252025-07-17http://hdl.handle.net/20.500.12404/31234El análisis metabolómico basado en la espectrometría de masas (EM) es una herramienta poderosa, pero conlleva sus propios retos. El flujo de trabajo de la EM implica múltiples pasos antes de su interpretación, el cual típicamente se denomina minería de datos. La extracción de datos consiste en un proceso de dos pasos. Primero, los datos de la EM se ordenan, organizan y presentan para su filtrado antes de ser analizados. Segundo, los datos filtrados y reducidos se analizan utilizando técnicas estadísticas para eliminar más variabilidad. Esto es especialmente cierto en el caso de los estudios metabolómicos no dirigidos (untargeted) basados en EM, que se centran en comprender los cambios en las redes metabólicas. Dado que la tarea de filtrar e identificar cambios a partir de un gran conjunto de datos es un reto, se necesitan técnicas automatizadas para la minería de datos metabolómicos no dirigidos basados en MS. El enfoque tradicional basado en estadísticas tiende a filtrar en exceso los datos en bruto, lo que puede dar lugar a la eliminación de datos relevantes y conducir a la identificación de menos cambios metabolómicos. Esta limitación del enfoque tradicional subraya la necesidad de un nuevo método. En este trabajo, presentamos un nuevo enfoque de aprendizaje profundo que utiliza node embeddings (impulsado por Graph Neural Networks), edge embeddings y un algoritmo de detección de anomalías para analizar los datos generados por la metabolómica basada en EM llamado GEMNA (Graph Embedding-based Metabolomics Network Analysis), Por ejemplo, para un estudio de volatilidad no dirigida en caramelos Mentos, los grupos de datos producidos por GEMNA fueron mejores que los de las técnicas tradicionales, es decir, GEMNA consigue una silhouette score = 0.409, vs el enfoque tradicional que consigue una silhouette score = −0.004.Mass spectrometry (MS)-based metabolomics analysis is a powerful tool, but it comes with its own set of challenges. The MS workflow involves multiple steps before its interpretation in what is denominate data mining. Data mining consists of a two-step process. First, the MS data is ordered, arranged, and presented for filtering before being analyzed. Second, the filtered and reduced data are analyzed using statistics to remove further variability. This holds true particularly for MS-based untargeted metabolomics studies, which focused on understanding fold changes in metabolic networks. Since the task of filtering and identifying changes from a large dataset is challenging, automated techniques for mining untargeted MS-based metabolomic data are needed. The traditional statistics-based approach tends to overfilter raw data, which may result in the removal of relevant data and lead to the identification of fewer metabolomic changes. This limitation of the traditional approach underscores the need for a new method. In this work, we present a novel deep learning approach using node embeddings (powered by Graph Neural Networks), edge embeddings, and anomaly detection algorithm to analyze the data generated by MS-based metabolomics called GEMNA (Graph Embedding-based Metabolomics Network Analysis), for example for an untargeted volatile study on Mentos candy, the data clusters produced by GEMNA were better than the ones used traditional tools, i.e., GEMNA has silhouette score = 0.409, vs the traditional approach has silhouette score = −0.004.engPontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by-sa/2.5/pe/Espectometría de masasRedes neuronales (Computación)Teoría de grafosAprendizaje profundo (Aprendizaje automático)https://purl.org/pe-repo/ocde/ford#2.00.00Exploratory analysis of mass spectrometry data based on graph embeddingsinfo:eu-repo/semantics/doctoralThesisreponame:PUCP-Tesisinstname:Pontificia Universidad Católica del Perúinstacron:PUCPSUNEDUDoctor en IngenieríaDoctoradoPontificia Universidad Católica del Perú. Escuela de PosgradoIngeniería10802782https://orcid.org/0000-0001-9206-153744421404732028Buettner, FlorianIbañez Gabilondo, Alfredo JesusBeltran Castañon, Cesar ArmandoMartínez Bruno, OdemirDechant, Reinhardhttps://purl.org/pe-repo/renati/level#doctorhttps://purl.org/pe-repo/renati/type#tesisORIGINALALVAREZ_MAMANI_EDWIN.pdfALVAREZ_MAMANI_EDWIN.pdfTexto completoapplication/pdf4150832https://tesis.pucp.edu.pe/bitstreams/e2b9a497-9a12-452c-b5a5-ed52ce24302f/downloada063162222231d769ef3e5fcea7038bcMD51trueAnonymousREADALVAREZ_MAMANI_EDWIN_T.pdfALVAREZ_MAMANI_EDWIN_T.pdfReporte de originalidadapplication/pdf14619720https://tesis.pucp.edu.pe/bitstreams/ee5915fc-bec5-425a-9300-8516117e72c9/download1b509113d4c6d1ebc5982a10c676d64aMD52falseAdministratorREADCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81160https://tesis.pucp.edu.pe/bitstreams/8ad838ba-99e6-4858-bfc2-4296fa997bcf/download85e50b88013d0c13f136d8bfc3dd4616MD53falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://tesis.pucp.edu.pe/bitstreams/3fa84132-2134-4177-bb00-5c6057472625/downloadbb9bdc0b3349e4284e09149f943790b4MD54falseAnonymousREADTHUMBNAILALVAREZ_MAMANI_EDWIN.pdf.jpgALVAREZ_MAMANI_EDWIN.pdf.jpgGenerated Thumbnailimage/jpeg11417https://tesis.pucp.edu.pe/bitstreams/2566c3cc-dc8e-495e-8bab-104c51395daf/download231c8bc5b83cf8a62574292fd33720f4MD55falseAnonymousREADALVAREZ_MAMANI_EDWIN_T.pdf.jpgALVAREZ_MAMANI_EDWIN_T.pdf.jpgGenerated Thumbnailimage/jpeg7450https://tesis.pucp.edu.pe/bitstreams/53f6ae2a-33ef-4fb1-9e4f-9a73e166f1be/download2aae20b0be8563f38e61f6dab5b24126MD57falseAdministratorREADTEXTALVAREZ_MAMANI_EDWIN_T.pdf.txtALVAREZ_MAMANI_EDWIN_T.pdf.txtExtracted texttext/plain9023https://tesis.pucp.edu.pe/bitstreams/7f07295e-8664-4102-a3ca-2fe086ee59d7/download88e4798e72271c98955c7f3ec5ed8370MD56falseAdministratorREAD20.500.12404/31234oai:tesis.pucp.edu.pe:20.500.12404/312342026-03-23 10:07:25.486http://creativecommons.org/licenses/by-sa/2.5/pe/info:eu-repo/semantics/openAccessopen.accesshttps://tesis.pucp.edu.peRepositorio de Tesis PUCPraul.sifuentes@pucp.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0IG93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLCB0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZyB0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sIGluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlIHN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yIHB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZSB0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQgdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uIGFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LCB5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZSBjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdCBzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkIHdpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRCBCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUgRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSCBDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZSBzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMgbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=
score 13.941328
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).