Clusterización basada en una mixtura con distribuciones normales contaminadas multivariadas con datos incompletos: Una aplicación a la evaluación de habilidades socioemocionales

Descripción del Articulo

Aunque la distribución normal es útil en una variedad de contextos, enfrenta ciertas limitaciones al modelar datos que contienen valores extremos. Estos valores pueden generar “colas” más pesadas en la distribución, en contraste con las colas más ligeras de la distribución normal. Por lo tanto, en t...

Descripción completa

Detalles Bibliográficos
Autor: Zegarra López, Ángel Christopher
Formato: tesis de maestría
Fecha de Publicación:2023
Institución:Pontificia Universidad Católica del Perú
Repositorio:PUCP-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.pucp.edu.pe:20.500.14657/195488
Enlace del recurso:http://hdl.handle.net/20.500.12404/25820
Nivel de acceso:acceso abierto
Materia:Teoría de las distribuciones (Análisis funcional)
Modelos matemáticos
Habilidades sociales--Aspectos estadísticos
https://purl.org/pe-repo/ocde/ford#1.01.03
id RPUC_7513954609dba688e46302d7ab063c08
oai_identifier_str oai:repositorio.pucp.edu.pe:20.500.14657/195488
network_acronym_str RPUC
network_name_str PUCP-Institucional
repository_id_str 2905
spelling Benites Sánchez, Luis EnriqueZegarra López, Ángel Christopher2023-08-31T20:50:14Z2023-08-31T20:50:14Z20232023-08-31http://hdl.handle.net/20.500.12404/25820Aunque la distribución normal es útil en una variedad de contextos, enfrenta ciertas limitaciones al modelar datos que contienen valores extremos. Estos valores pueden generar “colas” más pesadas en la distribución, en contraste con las colas más ligeras de la distribución normal. Por lo tanto, en tales circunstancias, la distribución normal contaminada se presenta como una alternativa efectiva. Este ajuste es especialmente significativo en aplicaciones como la agrupación basada en modelos. En este método, es habitual emplear distribuciones normales multivariadas como fundamento para la agrupación. No obstante, la estimación de parámetros puede verse afectada por la presencia de valores extremos. En este estudio, implementamos la distribución normal contaminada multivariada como base para la agrupación basada en modelos, tal como propone Tong y Tortora (2022). Explicamos las características del modelo y llevamos a cabo un estudio de simulación para contrastar su desempeño con la distribución normal multivariada y la distribución t multivariada. Finalmente, aplicamos un proceso de agrupación basado en una mezcla de distribuciones normales contaminadas multivariadas a un conjunto de datos reales. Estos datos se derivan de los resultados de la Evaluación de Habilidades Socioemocionales, una iniciativa implementada por el Ministerio de Educación de Perú en 2021.The normal distribution has limitations when modeling data with outliers. The presence of outliers implies heavier tails in the distribution; whereas, the normal distribution has very light tails. For this reason, the contaminated normal distribution is used as a better alternative to model in these cases. One of the applications where this change is pertinent is in model-based clustering. In this approach, using multivariate normal distributions as the basis for clustering is common practice; however, the parameter estimates may be biased due to the presence of outliers. In this thesis, the multivariate contaminated normal distribution is used as the basis for model-based clustering. The characteristics of the model were presented, as well as a simulation study that compares the performance of the model with respect to the multivariate normal distribution and the multivariate t-distribution. Finally, a clustering process was carried out based on a mixture of multivariate contaminated normal distributions to a data set of the results of the Socio-emotional Skills assessment, an operation implemented by the Ministry of Education of Peru in 2021.spaPontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by/2.5/pe/Teoría de las distribuciones (Análisis funcional)Modelos matemáticosHabilidades sociales--Aspectos estadísticoshttps://purl.org/pe-repo/ocde/ford#1.01.03Clusterización basada en una mixtura con distribuciones normales contaminadas multivariadas con datos incompletos: Una aplicación a la evaluación de habilidades socioemocionalesinfo:eu-repo/semantics/masterThesisTesis de maestríareponame:PUCP-Institucionalinstname:Pontificia Universidad Católica del Perúinstacron:PUCPMaestro en EstadísticaMaestro en EstadísticaMaestríaPontificia Universidad Católica del Perú. Escuela de Posgrado.EstadísticaEstadística42987865http://orcid.org/0000-0001-5998-709872630105542037Sal Y Rosas Celi, Victor GiancarloBenites Sanchez, Luis EnriqueValdivieso Serrano, Luis Hilmarhttps://purl.org/pe-repo/renati/level#maestrohttps://purl.org/pe-repo/renati/type#tesis20.500.14657/195488oai:repositorio.pucp.edu.pe:20.500.14657/1954882024-06-10 10:54:38.783http://creativecommons.org/licenses/by/2.5/pe/info:eu-repo/semantics/openAccessmetadata.onlyhttps://repositorio.pucp.edu.peRepositorio Institucional de la PUCPrepositorio@pucp.pe
dc.title.es_ES.fl_str_mv Clusterización basada en una mixtura con distribuciones normales contaminadas multivariadas con datos incompletos: Una aplicación a la evaluación de habilidades socioemocionales
title Clusterización basada en una mixtura con distribuciones normales contaminadas multivariadas con datos incompletos: Una aplicación a la evaluación de habilidades socioemocionales
spellingShingle Clusterización basada en una mixtura con distribuciones normales contaminadas multivariadas con datos incompletos: Una aplicación a la evaluación de habilidades socioemocionales
Zegarra López, Ángel Christopher
Teoría de las distribuciones (Análisis funcional)
Modelos matemáticos
Habilidades sociales--Aspectos estadísticos
https://purl.org/pe-repo/ocde/ford#1.01.03
title_short Clusterización basada en una mixtura con distribuciones normales contaminadas multivariadas con datos incompletos: Una aplicación a la evaluación de habilidades socioemocionales
title_full Clusterización basada en una mixtura con distribuciones normales contaminadas multivariadas con datos incompletos: Una aplicación a la evaluación de habilidades socioemocionales
title_fullStr Clusterización basada en una mixtura con distribuciones normales contaminadas multivariadas con datos incompletos: Una aplicación a la evaluación de habilidades socioemocionales
title_full_unstemmed Clusterización basada en una mixtura con distribuciones normales contaminadas multivariadas con datos incompletos: Una aplicación a la evaluación de habilidades socioemocionales
title_sort Clusterización basada en una mixtura con distribuciones normales contaminadas multivariadas con datos incompletos: Una aplicación a la evaluación de habilidades socioemocionales
author Zegarra López, Ángel Christopher
author_facet Zegarra López, Ángel Christopher
author_role author
dc.contributor.advisor.fl_str_mv Benites Sánchez, Luis Enrique
dc.contributor.author.fl_str_mv Zegarra López, Ángel Christopher
dc.subject.es_ES.fl_str_mv Teoría de las distribuciones (Análisis funcional)
Modelos matemáticos
Habilidades sociales--Aspectos estadísticos
topic Teoría de las distribuciones (Análisis funcional)
Modelos matemáticos
Habilidades sociales--Aspectos estadísticos
https://purl.org/pe-repo/ocde/ford#1.01.03
dc.subject.ocde.es_ES.fl_str_mv https://purl.org/pe-repo/ocde/ford#1.01.03
description Aunque la distribución normal es útil en una variedad de contextos, enfrenta ciertas limitaciones al modelar datos que contienen valores extremos. Estos valores pueden generar “colas” más pesadas en la distribución, en contraste con las colas más ligeras de la distribución normal. Por lo tanto, en tales circunstancias, la distribución normal contaminada se presenta como una alternativa efectiva. Este ajuste es especialmente significativo en aplicaciones como la agrupación basada en modelos. En este método, es habitual emplear distribuciones normales multivariadas como fundamento para la agrupación. No obstante, la estimación de parámetros puede verse afectada por la presencia de valores extremos. En este estudio, implementamos la distribución normal contaminada multivariada como base para la agrupación basada en modelos, tal como propone Tong y Tortora (2022). Explicamos las características del modelo y llevamos a cabo un estudio de simulación para contrastar su desempeño con la distribución normal multivariada y la distribución t multivariada. Finalmente, aplicamos un proceso de agrupación basado en una mezcla de distribuciones normales contaminadas multivariadas a un conjunto de datos reales. Estos datos se derivan de los resultados de la Evaluación de Habilidades Socioemocionales, una iniciativa implementada por el Ministerio de Educación de Perú en 2021.
publishDate 2023
dc.date.accessioned.none.fl_str_mv 2023-08-31T20:50:14Z
dc.date.available.none.fl_str_mv 2023-08-31T20:50:14Z
dc.date.created.none.fl_str_mv 2023
dc.date.issued.fl_str_mv 2023-08-31
dc.type.es_ES.fl_str_mv info:eu-repo/semantics/masterThesis
dc.type.other.none.fl_str_mv Tesis de maestría
format masterThesis
dc.identifier.uri.none.fl_str_mv http://hdl.handle.net/20.500.12404/25820
url http://hdl.handle.net/20.500.12404/25820
dc.language.iso.es_ES.fl_str_mv spa
language spa
dc.rights.es_ES.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.*.fl_str_mv http://creativecommons.org/licenses/by/2.5/pe/
eu_rights_str_mv openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by/2.5/pe/
dc.publisher.es_ES.fl_str_mv Pontificia Universidad Católica del Perú
dc.publisher.country.es_ES.fl_str_mv PE
dc.source.none.fl_str_mv reponame:PUCP-Institucional
instname:Pontificia Universidad Católica del Perú
instacron:PUCP
instname_str Pontificia Universidad Católica del Perú
instacron_str PUCP
institution PUCP
reponame_str PUCP-Institucional
collection PUCP-Institucional
repository.name.fl_str_mv Repositorio Institucional de la PUCP
repository.mail.fl_str_mv repositorio@pucp.pe
_version_ 1835638915779788800
score 13.905282
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).