Data mining of DNA sequences submitted by Peruvian institutions to public genetic databases

Romero, Pedro Eduardo; Castillo-Vilcahuaman, Camila

Data mining of DNA sequences submitted by Peruvian institutions to public genetic databases

Descripción del Articulo

Genetic diversity is an important component of biodiversity, and it is crucial for current efforts to protect and sustainably manage several organisms and habitats. As far as we know, there is only one work describing Peruvian genetic information stored in public databases. We aimed to update this p...

Descripción completa

Detalles Bibliográficos
Autores:	Romero, Pedro Eduardo, Castillo-Vilcahuaman, Camila
Formato:	artículo
Fecha de Publicación:	2021
Institución:	Universidad Nacional Mayor de San Marcos
Repositorio:	Revistas - Universidad Nacional Mayor de San Marcos
Lenguaje:	inglés
OAI Identifier:	oai:ojs.csi.unmsm:article/17867
Enlace del recurso:	https://revistasinvestigacion.unmsm.edu.pe/index.php/rpb/article/view/17867
Nivel de acceso:	acceso abierto
Materia:	Genetic diversity public databases biodiversity Peru data mining Diversidad genética bases de datos públicas biodiversidad Perú minería de datos

id	REVUNMSM_fa76b0320b070640660536d8e3eade41
oai_identifier_str	oai:ojs.csi.unmsm:article/17867
network_acronym_str	REVUNMSM
network_name_str	Revistas - Universidad Nacional Mayor de San Marcos
repository_id_str
dc.title.none.fl_str_mv	Data mining of DNA sequences submitted by Peruvian institutions to public genetic databases Minería de datos de secuencias de DNA enviadas a bases de datos genéticas públicas por instituciones peruanas
title	Data mining of DNA sequences submitted by Peruvian institutions to public genetic databases
spellingShingle	Data mining of DNA sequences submitted by Peruvian institutions to public genetic databases Romero, Pedro Eduardo Genetic diversity public databases biodiversity Peru data mining Diversidad genética bases de datos públicas biodiversidad Perú minería de datos
title_short	Data mining of DNA sequences submitted by Peruvian institutions to public genetic databases
title_full	Data mining of DNA sequences submitted by Peruvian institutions to public genetic databases
title_fullStr	Data mining of DNA sequences submitted by Peruvian institutions to public genetic databases
title_full_unstemmed	Data mining of DNA sequences submitted by Peruvian institutions to public genetic databases
title_sort	Data mining of DNA sequences submitted by Peruvian institutions to public genetic databases
dc.creator.none.fl_str_mv	Romero, Pedro Eduardo Castillo-Vilcahuaman, Camila
author	Romero, Pedro Eduardo
author_facet	Romero, Pedro Eduardo Castillo-Vilcahuaman, Camila
author_role	author
author2	Castillo-Vilcahuaman, Camila
author2_role	author
dc.subject.none.fl_str_mv	Genetic diversity public databases biodiversity Peru data mining Diversidad genética bases de datos públicas biodiversidad Perú minería de datos
topic	Genetic diversity public databases biodiversity Peru data mining Diversidad genética bases de datos públicas biodiversidad Perú minería de datos
description	Genetic diversity is an important component of biodiversity, and it is crucial for current efforts to protect and sustainably manage several organisms and habitats. As far as we know, there is only one work describing Peruvian genetic information stored in public databases. We aimed to update this previous work searching in four public databases that stored digital sequence information: Nucleotide, BioProject, PATRIC, BOLD. With this information, we comment on the contribution of Peruvian institutions during recent years. In Nucleotide, the largest database, Bacteria are the most sequenced organisms by Peruvian institutions (70.60%), pathogenic bacteria such as Pasteurella multocida, Neisseria meningitidis, and Vibrio parahaemolyticus were the most abundant. We found no sequence records from the Archaea domain. In BioProject, the most common sequence belongs to Salmonella enterica subsp. enterica serovar Infantis. In PATRIC, a database of pathogenic agents, Mycobacterium tuberculosis and Yersinia pestis had the highest number of entries. Finally, in BOLD, an exclusively Eukaryotic database, Chordata (Aves and Actinopterygii), Angiospermae, and Arthropoda (Insecta, and Arachnida) were the most frequent records. Our results would indicate research preferences of Peruvian institutions, focusing on infectious diseases and some Eukaryotic phyla. Although there has been a significant increase of DNA information submitted by Peruvian institutions since the last report, the genetic diversity reflected in these databases remains inconsistent with the diversity in the country. More efforts must be made to obtain genetic information from more underestimated taxonomic groups and to promote more genetic research in regional Peruvian institutions.
publishDate	2021
dc.date.none.fl_str_mv	2021-02-24
dc.type.none.fl_str_mv	info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion
format	article
status_str	publishedVersion
dc.identifier.none.fl_str_mv	https://revistasinvestigacion.unmsm.edu.pe/index.php/rpb/article/view/17867 10.15381/rpb.v28i1.17867
url	https://revistasinvestigacion.unmsm.edu.pe/index.php/rpb/article/view/17867
identifier_str_mv	10.15381/rpb.v28i1.17867
dc.language.none.fl_str_mv	eng
language	eng
dc.relation.none.fl_str_mv	https://revistasinvestigacion.unmsm.edu.pe/index.php/rpb/article/view/17867/16385
dc.rights.none.fl_str_mv	Derechos de autor 2021 Pedro Eduardo Romero, Camila Castillo-Vilcahuaman https://creativecommons.org/licenses/by-nc-sa/4.0 info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Derechos de autor 2021 Pedro Eduardo Romero, Camila Castillo-Vilcahuaman https://creativecommons.org/licenses/by-nc-sa/4.0
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidad Nacional Mayor de San Marcos, Facultad de Ciencias Biológicas
publisher.none.fl_str_mv	Universidad Nacional Mayor de San Marcos, Facultad de Ciencias Biológicas
dc.source.none.fl_str_mv	Revista Peruana de Biología; Vol. 28 Núm. 1 (2021); e17867 Revista Peruana de Biología; Vol. 28 No. 1 (2021); e17867 1727-9933 1561-0837 10.15381/rpb.v28i1 reponame:Revistas - Universidad Nacional Mayor de San Marcos instname:Universidad Nacional Mayor de San Marcos instacron:UNMSM
instname_str	Universidad Nacional Mayor de San Marcos
instacron_str	UNMSM
institution	UNMSM
reponame_str	Revistas - Universidad Nacional Mayor de San Marcos
collection	Revistas - Universidad Nacional Mayor de San Marcos
repository.name.fl_str_mv
repository.mail.fl_str_mv
_version_	1795238313337028608
spelling	Data mining of DNA sequences submitted by Peruvian institutions to public genetic databasesMinería de datos de secuencias de DNA enviadas a bases de datos genéticas públicas por instituciones peruanasRomero, Pedro EduardoCastillo-Vilcahuaman, CamilaGenetic diversitypublic databasesbiodiversityPerudata miningDiversidad genéticabases de datos públicasbiodiversidadPerúminería de datosGenetic diversity is an important component of biodiversity, and it is crucial for current efforts to protect and sustainably manage several organisms and habitats. As far as we know, there is only one work describing Peruvian genetic information stored in public databases. We aimed to update this previous work searching in four public databases that stored digital sequence information: Nucleotide, BioProject, PATRIC, BOLD. With this information, we comment on the contribution of Peruvian institutions during recent years. In Nucleotide, the largest database, Bacteria are the most sequenced organisms by Peruvian institutions (70.60%), pathogenic bacteria such as Pasteurella multocida, Neisseria meningitidis, and Vibrio parahaemolyticus were the most abundant. We found no sequence records from the Archaea domain. In BioProject, the most common sequence belongs to Salmonella enterica subsp. enterica serovar Infantis. In PATRIC, a database of pathogenic agents, Mycobacterium tuberculosis and Yersinia pestis had the highest number of entries. Finally, in BOLD, an exclusively Eukaryotic database, Chordata (Aves and Actinopterygii), Angiospermae, and Arthropoda (Insecta, and Arachnida) were the most frequent records. Our results would indicate research preferences of Peruvian institutions, focusing on infectious diseases and some Eukaryotic phyla. Although there has been a significant increase of DNA information submitted by Peruvian institutions since the last report, the genetic diversity reflected in these databases remains inconsistent with the diversity in the country. More efforts must be made to obtain genetic information from more underestimated taxonomic groups and to promote more genetic research in regional Peruvian institutions.La diversidad genética es una componente importante de la biodiversidad y es crucial para los esfuerzos actuales de proteger y gestionar de manera sostenible varios organismos y hábitats. Hasta donde sabemos, solo hay un trabajo que describe la información genética peruana almacenada en bases de datos públicas. Nuestro objetivo fue actualizar este trabajo previo buscando en cuatro bases de datos públicas que almacenaban información de secuencias digitales: Nucleotide, BioProject, PATRIC, BOLD. Con esta información analizamos la contribución de las instituciones peruanas durante los últimos años. En Nucleotide, la base de datos más grande, las bacterias fueron los organismos más secuenciados por las instituciones peruanas (70.60%), las bacterias patógenas como Pasteurella multocida, Neisseria meningitidis y Vibrio parahaemolyticus fueron las más abundantes. No encontramos registros de secuencias del dominio Archaea. En BioProject, la secuencia más común pertenece a Salmonella enterica subsp. enterica serovar Infantis. En PATRIC, una base de datos de agentes patógenos, Mycobacterium tuberculosis y Yersinia pestis tuvieron el mayor número de entradas. Finalmente, en BOLD, una base de datos exclusivamente eucariota, Chordata (Aves y Actinopterygii), Angiospermae y Arthropoda (Insecta y Arachnida) fueron los registros más frecuentes. Nuestros resultados indicarían las preferencias de investigación de las instituciones peruanas, centrándose en enfermedades infecciosas y algunos filos eucariotas. Aunque ha habido un aumento significativo de la información de ADN enviada por las instituciones peruanas desde el último informe, la diversidad genética reflejada en estas bases de datos sigue siendo inconsistente con la diversidad del país. Se deben realizar más esfuerzos para obtener información genética de grupos taxonómicos más subestimados y promover más investigación genética en las instituciones regionales peruanas.Universidad Nacional Mayor de San Marcos, Facultad de Ciencias Biológicas2021-02-24info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdfhttps://revistasinvestigacion.unmsm.edu.pe/index.php/rpb/article/view/1786710.15381/rpb.v28i1.17867Revista Peruana de Biología; Vol. 28 Núm. 1 (2021); e17867Revista Peruana de Biología; Vol. 28 No. 1 (2021); e178671727-99331561-083710.15381/rpb.v28i1reponame:Revistas - Universidad Nacional Mayor de San Marcosinstname:Universidad Nacional Mayor de San Marcosinstacron:UNMSMenghttps://revistasinvestigacion.unmsm.edu.pe/index.php/rpb/article/view/17867/16385Derechos de autor 2021 Pedro Eduardo Romero, Camila Castillo-Vilcahuamanhttps://creativecommons.org/licenses/by-nc-sa/4.0info:eu-repo/semantics/openAccessoai:ojs.csi.unmsm:article/178672021-02-26T22:19:59Z
score	13.927358

Data mining of DNA sequences submitted by Peruvian institutions to public genetic databases

Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).

Data mining of DNA sequences submitted by Peruvian institutions to public genetic databases

Descripción del Articulo

Ejemplares Similares