Clusterización basada en una mixtura con distribuciones normales contaminadas multivariadas con datos incompletos: Una aplicación a la evaluación de habilidades socioemocionales
Descripción del Articulo
Aunque la distribución normal es útil en una variedad de contextos, enfrenta ciertas limitaciones al modelar datos que contienen valores extremos. Estos valores pueden generar “colas” más pesadas en la distribución, en contraste con las colas más ligeras de la distribución normal. Por lo tanto, en t...
| Autor: | |
|---|---|
| Formato: | tesis de maestría |
| Fecha de Publicación: | 2023 |
| Institución: | Pontificia Universidad Católica del Perú |
| Repositorio: | PUCP-Tesis |
| Lenguaje: | español |
| OAI Identifier: | oai:tesis.pucp.edu.pe:20.500.12404/25820 |
| Enlace del recurso: | http://hdl.handle.net/20.500.12404/25820 |
| Nivel de acceso: | acceso abierto |
| Materia: | Teoría de las distribuciones (Análisis funcional) Modelos matemáticos Habilidades sociales--Aspectos estadísticos https://purl.org/pe-repo/ocde/ford#1.01.03 |
| id |
PUCP_9c309badf393950670accceee172a556 |
|---|---|
| oai_identifier_str |
oai:tesis.pucp.edu.pe:20.500.12404/25820 |
| network_acronym_str |
PUCP |
| network_name_str |
PUCP-Tesis |
| repository_id_str |
. |
| dc.title.es_ES.fl_str_mv |
Clusterización basada en una mixtura con distribuciones normales contaminadas multivariadas con datos incompletos: Una aplicación a la evaluación de habilidades socioemocionales |
| title |
Clusterización basada en una mixtura con distribuciones normales contaminadas multivariadas con datos incompletos: Una aplicación a la evaluación de habilidades socioemocionales |
| spellingShingle |
Clusterización basada en una mixtura con distribuciones normales contaminadas multivariadas con datos incompletos: Una aplicación a la evaluación de habilidades socioemocionales Zegarra López, Ángel Christopher Teoría de las distribuciones (Análisis funcional) Modelos matemáticos Habilidades sociales--Aspectos estadísticos https://purl.org/pe-repo/ocde/ford#1.01.03 |
| title_short |
Clusterización basada en una mixtura con distribuciones normales contaminadas multivariadas con datos incompletos: Una aplicación a la evaluación de habilidades socioemocionales |
| title_full |
Clusterización basada en una mixtura con distribuciones normales contaminadas multivariadas con datos incompletos: Una aplicación a la evaluación de habilidades socioemocionales |
| title_fullStr |
Clusterización basada en una mixtura con distribuciones normales contaminadas multivariadas con datos incompletos: Una aplicación a la evaluación de habilidades socioemocionales |
| title_full_unstemmed |
Clusterización basada en una mixtura con distribuciones normales contaminadas multivariadas con datos incompletos: Una aplicación a la evaluación de habilidades socioemocionales |
| title_sort |
Clusterización basada en una mixtura con distribuciones normales contaminadas multivariadas con datos incompletos: Una aplicación a la evaluación de habilidades socioemocionales |
| author |
Zegarra López, Ángel Christopher |
| author_facet |
Zegarra López, Ángel Christopher |
| author_role |
author |
| dc.contributor.advisor.fl_str_mv |
Benites Sánchez, Luis Enrique |
| dc.contributor.author.fl_str_mv |
Zegarra López, Ángel Christopher |
| dc.subject.es_ES.fl_str_mv |
Teoría de las distribuciones (Análisis funcional) Modelos matemáticos Habilidades sociales--Aspectos estadísticos |
| topic |
Teoría de las distribuciones (Análisis funcional) Modelos matemáticos Habilidades sociales--Aspectos estadísticos https://purl.org/pe-repo/ocde/ford#1.01.03 |
| dc.subject.ocde.es_ES.fl_str_mv |
https://purl.org/pe-repo/ocde/ford#1.01.03 |
| description |
Aunque la distribución normal es útil en una variedad de contextos, enfrenta ciertas limitaciones al modelar datos que contienen valores extremos. Estos valores pueden generar “colas” más pesadas en la distribución, en contraste con las colas más ligeras de la distribución normal. Por lo tanto, en tales circunstancias, la distribución normal contaminada se presenta como una alternativa efectiva. Este ajuste es especialmente significativo en aplicaciones como la agrupación basada en modelos. En este método, es habitual emplear distribuciones normales multivariadas como fundamento para la agrupación. No obstante, la estimación de parámetros puede verse afectada por la presencia de valores extremos. En este estudio, implementamos la distribución normal contaminada multivariada como base para la agrupación basada en modelos, tal como propone Tong y Tortora (2022). Explicamos las características del modelo y llevamos a cabo un estudio de simulación para contrastar su desempeño con la distribución normal multivariada y la distribución t multivariada. Finalmente, aplicamos un proceso de agrupación basado en una mezcla de distribuciones normales contaminadas multivariadas a un conjunto de datos reales. Estos datos se derivan de los resultados de la Evaluación de Habilidades Socioemocionales, una iniciativa implementada por el Ministerio de Educación de Perú en 2021. |
| publishDate |
2023 |
| dc.date.accessioned.none.fl_str_mv |
2023-08-31T20:50:14Z |
| dc.date.available.none.fl_str_mv |
2023-08-31T20:50:14Z |
| dc.date.created.none.fl_str_mv |
2023 |
| dc.date.issued.fl_str_mv |
2023-08-31 |
| dc.type.es_ES.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| dc.identifier.uri.none.fl_str_mv |
http://hdl.handle.net/20.500.12404/25820 |
| url |
http://hdl.handle.net/20.500.12404/25820 |
| dc.language.iso.es_ES.fl_str_mv |
spa |
| language |
spa |
| dc.relation.ispartof.fl_str_mv |
SUNEDU |
| dc.rights.es_ES.fl_str_mv |
info:eu-repo/semantics/openAccess |
| dc.rights.uri.*.fl_str_mv |
http://creativecommons.org/licenses/by/2.5/pe/ |
| eu_rights_str_mv |
openAccess |
| rights_invalid_str_mv |
http://creativecommons.org/licenses/by/2.5/pe/ |
| dc.publisher.es_ES.fl_str_mv |
Pontificia Universidad Católica del Perú |
| dc.publisher.country.es_ES.fl_str_mv |
PE |
| dc.source.none.fl_str_mv |
reponame:PUCP-Tesis instname:Pontificia Universidad Católica del Perú instacron:PUCP |
| instname_str |
Pontificia Universidad Católica del Perú |
| instacron_str |
PUCP |
| institution |
PUCP |
| reponame_str |
PUCP-Tesis |
| collection |
PUCP-Tesis |
| bitstream.url.fl_str_mv |
https://tesis.pucp.edu.pe/bitstreams/89caeef8-dbda-4e61-a6c2-3de913954003/download https://tesis.pucp.edu.pe/bitstreams/9353ec5a-1596-43ab-940f-9dea9fe32d42/download https://tesis.pucp.edu.pe/bitstreams/0c1279d4-0722-4cbd-8707-65da7e4c4232/download https://tesis.pucp.edu.pe/bitstreams/f7b63163-4d8f-4d10-adef-fdc966f85e3d/download https://tesis.pucp.edu.pe/bitstreams/72b87459-83f6-4adc-838e-c4c1fa088b6d/download https://tesis.pucp.edu.pe/bitstreams/6249afc8-9d5b-49f6-9a30-f3634b74de6e/download |
| bitstream.checksum.fl_str_mv |
2ec0559fb21252e8cf19598e4706bc8d b51eadc9324e4d76483f06c17e04a55a 5a4ffbc01f1b5eb70a835dac0d501661 8a4605be74aa9ea9d79846c1fba20a33 ac7af808d42724ea893fb409cf270164 abc300b31383285958c3ddaf3bd250bc |
| bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 |
| repository.name.fl_str_mv |
Repositorio de Tesis PUCP |
| repository.mail.fl_str_mv |
raul.sifuentes@pucp.pe |
| _version_ |
1834737027935895552 |
| spelling |
Benites Sánchez, Luis EnriqueZegarra López, Ángel Christopher2023-08-31T20:50:14Z2023-08-31T20:50:14Z20232023-08-31http://hdl.handle.net/20.500.12404/25820Aunque la distribución normal es útil en una variedad de contextos, enfrenta ciertas limitaciones al modelar datos que contienen valores extremos. Estos valores pueden generar “colas” más pesadas en la distribución, en contraste con las colas más ligeras de la distribución normal. Por lo tanto, en tales circunstancias, la distribución normal contaminada se presenta como una alternativa efectiva. Este ajuste es especialmente significativo en aplicaciones como la agrupación basada en modelos. En este método, es habitual emplear distribuciones normales multivariadas como fundamento para la agrupación. No obstante, la estimación de parámetros puede verse afectada por la presencia de valores extremos. En este estudio, implementamos la distribución normal contaminada multivariada como base para la agrupación basada en modelos, tal como propone Tong y Tortora (2022). Explicamos las características del modelo y llevamos a cabo un estudio de simulación para contrastar su desempeño con la distribución normal multivariada y la distribución t multivariada. Finalmente, aplicamos un proceso de agrupación basado en una mezcla de distribuciones normales contaminadas multivariadas a un conjunto de datos reales. Estos datos se derivan de los resultados de la Evaluación de Habilidades Socioemocionales, una iniciativa implementada por el Ministerio de Educación de Perú en 2021.The normal distribution has limitations when modeling data with outliers. The presence of outliers implies heavier tails in the distribution; whereas, the normal distribution has very light tails. For this reason, the contaminated normal distribution is used as a better alternative to model in these cases. One of the applications where this change is pertinent is in model-based clustering. In this approach, using multivariate normal distributions as the basis for clustering is common practice; however, the parameter estimates may be biased due to the presence of outliers. In this thesis, the multivariate contaminated normal distribution is used as the basis for model-based clustering. The characteristics of the model were presented, as well as a simulation study that compares the performance of the model with respect to the multivariate normal distribution and the multivariate t-distribution. Finally, a clustering process was carried out based on a mixture of multivariate contaminated normal distributions to a data set of the results of the Socio-emotional Skills assessment, an operation implemented by the Ministry of Education of Peru in 2021.spaPontificia Universidad Católica del PerúPEinfo:eu-repo/semantics/openAccesshttp://creativecommons.org/licenses/by/2.5/pe/Teoría de las distribuciones (Análisis funcional)Modelos matemáticosHabilidades sociales--Aspectos estadísticoshttps://purl.org/pe-repo/ocde/ford#1.01.03Clusterización basada en una mixtura con distribuciones normales contaminadas multivariadas con datos incompletos: Una aplicación a la evaluación de habilidades socioemocionalesinfo:eu-repo/semantics/masterThesisreponame:PUCP-Tesisinstname:Pontificia Universidad Católica del Perúinstacron:PUCPSUNEDUMaestro en EstadísticaMaestro en EstadísticaMaestríaPontificia Universidad Católica del Perú. Escuela de Posgrado.EstadísticaEstadística42987865http://orcid.org/0000-0001-5998-709872630105542037Sal Y Rosas Celi, Victor GiancarloBenites Sanchez, Luis EnriqueValdivieso Serrano, Luis Hilmarhttps://purl.org/pe-repo/renati/level#maestrohttps://purl.org/pe-repo/renati/type#tesisORIGINAL2023_ZEGARRA_LÓPEZ_ÁNGEL_CHRISTOPHER_CLUSTERIZACION_BASADA_MIXTURA_DISTRIBUCIONES_TESIS.pdf2023_ZEGARRA_LÓPEZ_ÁNGEL_CHRISTOPHER_CLUSTERIZACION_BASADA_MIXTURA_DISTRIBUCIONES_TESIS.pdfTexto completoapplication/pdf1929559https://tesis.pucp.edu.pe/bitstreams/89caeef8-dbda-4e61-a6c2-3de913954003/download2ec0559fb21252e8cf19598e4706bc8dMD51trueAnonymousREAD2023_ZEGARRA_LÓPEZ_ÁNGEL_CHRISTOPHER_CLUSTERIZACION_BASADA_MIXTURA_DISTRIBUCIONES_T.pdf2023_ZEGARRA_LÓPEZ_ÁNGEL_CHRISTOPHER_CLUSTERIZACION_BASADA_MIXTURA_DISTRIBUCIONES_T.pdfReporte de originalidadapplication/pdf10081220https://tesis.pucp.edu.pe/bitstreams/9353ec5a-1596-43ab-940f-9dea9fe32d42/downloadb51eadc9324e4d76483f06c17e04a55aMD52falseAnonymousREAD2500-01-01CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8914https://tesis.pucp.edu.pe/bitstreams/0c1279d4-0722-4cbd-8707-65da7e4c4232/download5a4ffbc01f1b5eb70a835dac0d501661MD53falseAnonymousREADLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://tesis.pucp.edu.pe/bitstreams/f7b63163-4d8f-4d10-adef-fdc966f85e3d/download8a4605be74aa9ea9d79846c1fba20a33MD54falseAnonymousREADTHUMBNAIL2023_ZEGARRA_LÓPEZ_ÁNGEL_CHRISTOPHER_CLUSTERIZACION_BASADA_MIXTURA_DISTRIBUCIONES_TESIS.pdf.jpg2023_ZEGARRA_LÓPEZ_ÁNGEL_CHRISTOPHER_CLUSTERIZACION_BASADA_MIXTURA_DISTRIBUCIONES_TESIS.pdf.jpgIM Thumbnailimage/jpeg9380https://tesis.pucp.edu.pe/bitstreams/72b87459-83f6-4adc-838e-c4c1fa088b6d/downloadac7af808d42724ea893fb409cf270164MD55falseAnonymousREAD2023_ZEGARRA_LÓPEZ_ÁNGEL_CHRISTOPHER_CLUSTERIZACION_BASADA_MIXTURA_DISTRIBUCIONES_T.pdf.jpg2023_ZEGARRA_LÓPEZ_ÁNGEL_CHRISTOPHER_CLUSTERIZACION_BASADA_MIXTURA_DISTRIBUCIONES_T.pdf.jpgIM Thumbnailimage/jpeg15195https://tesis.pucp.edu.pe/bitstreams/6249afc8-9d5b-49f6-9a30-f3634b74de6e/downloadabc300b31383285958c3ddaf3bd250bcMD56falseAnonymousREAD2500-01-0120.500.12404/25820oai:tesis.pucp.edu.pe:20.500.12404/258202024-05-29 10:29:33.726http://creativecommons.org/licenses/by/2.5/pe/info:eu-repo/semantics/openAccessopen.accesshttps://tesis.pucp.edu.peRepositorio de Tesis PUCPraul.sifuentes@pucp.peTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |
| score |
13.934021 |
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).