Imputación de datos faltantes en los ingresos por hogar en la Enaho utilizando el método del K-vecino más cercano

Descripción del Articulo

Universidad Nacional Agraria La Molina. Facultad de Economía y Planificación. Departamento Académico de Estadística e Informática
Detalles Bibliográficos
Autor: Collazos Tuesta, Oscar Ronald
Formato: tesis de grado
Fecha de Publicación:2021
Institución:Universidad Nacional Agraria La Molina
Repositorio:UNALM-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.lamolina.edu.pe:20.500.12996/4851
Enlace del recurso:https://hdl.handle.net/20.500.12996/4851
Nivel de acceso:acceso abierto
Materia:Hogares
Familia
Pobreza
Encuestas
Recolección de datos
Análisis de datos
Métodos estadísticos
Datos estadísticos
Perú
Método de k-vecino
Mecanismo MCAR
https://purl.org/pe-repo/ocde/ford#4.05.00
id UNAL_7217b2036a9535deb765b8a7b27e1f79
oai_identifier_str oai:repositorio.lamolina.edu.pe:20.500.12996/4851
network_acronym_str UNAL
network_name_str UNALM-Institucional
repository_id_str 3039
dc.title.es_PE.fl_str_mv Imputación de datos faltantes en los ingresos por hogar en la Enaho utilizando el método del K-vecino más cercano
title Imputación de datos faltantes en los ingresos por hogar en la Enaho utilizando el método del K-vecino más cercano
spellingShingle Imputación de datos faltantes en los ingresos por hogar en la Enaho utilizando el método del K-vecino más cercano
Collazos Tuesta, Oscar Ronald
Hogares
Familia
Pobreza
Encuestas
Recolección de datos
Análisis de datos
Métodos estadísticos
Datos estadísticos
Perú
Método de k-vecino
Mecanismo MCAR
https://purl.org/pe-repo/ocde/ford#4.05.00
title_short Imputación de datos faltantes en los ingresos por hogar en la Enaho utilizando el método del K-vecino más cercano
title_full Imputación de datos faltantes en los ingresos por hogar en la Enaho utilizando el método del K-vecino más cercano
title_fullStr Imputación de datos faltantes en los ingresos por hogar en la Enaho utilizando el método del K-vecino más cercano
title_full_unstemmed Imputación de datos faltantes en los ingresos por hogar en la Enaho utilizando el método del K-vecino más cercano
title_sort Imputación de datos faltantes en los ingresos por hogar en la Enaho utilizando el método del K-vecino más cercano
author Collazos Tuesta, Oscar Ronald
author_facet Collazos Tuesta, Oscar Ronald
author_role author
dc.contributor.advisor.fl_str_mv Menacho Chiok, César Higinio
dc.contributor.author.fl_str_mv Collazos Tuesta, Oscar Ronald
dc.subject.es_PE.fl_str_mv Hogares
Familia
Pobreza
Encuestas
Recolección de datos
Análisis de datos
Métodos estadísticos
Datos estadísticos
Perú
Método de k-vecino
Mecanismo MCAR
topic Hogares
Familia
Pobreza
Encuestas
Recolección de datos
Análisis de datos
Métodos estadísticos
Datos estadísticos
Perú
Método de k-vecino
Mecanismo MCAR
https://purl.org/pe-repo/ocde/ford#4.05.00
dc.subject.ocde.es_PE.fl_str_mv https://purl.org/pe-repo/ocde/ford#4.05.00
description Universidad Nacional Agraria La Molina. Facultad de Economía y Planificación. Departamento Académico de Estadística e Informática
publishDate 2021
dc.date.accessioned.none.fl_str_mv 2021-08-10T19:27:38Z
dc.date.available.none.fl_str_mv 2021-08-10T19:27:38Z
dc.date.issued.fl_str_mv 2021
dc.type.en_US.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.version.en_US.fl_str_mv info:eu-repo/semantics/publishedVersion
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.none.fl_str_mv https://hdl.handle.net/20.500.12996/4851
url https://hdl.handle.net/20.500.12996/4851
dc.language.iso.es_PE.fl_str_mv spa
language spa
dc.relation.ispartof.fl_str_mv SUNEDU
dc.rights.en_US.fl_str_mv info:eu-repo/semantics/openAccess
dc.rights.uri.*.fl_str_mv https://creativecommons.org/licenses/by/4.0/
eu_rights_str_mv openAccess
rights_invalid_str_mv https://creativecommons.org/licenses/by/4.0/
dc.format.en_US.fl_str_mv application/pdf
dc.publisher.es_PE.fl_str_mv Universidad Nacional Agraria La Molina
dc.publisher.country.es_PE.fl_str_mv PE
dc.source.none.fl_str_mv reponame:UNALM-Institucional
instname:Universidad Nacional Agraria La Molina
instacron:UNALM
instname_str Universidad Nacional Agraria La Molina
instacron_str UNALM
institution UNALM
reponame_str UNALM-Institucional
collection UNALM-Institucional
bitstream.url.fl_str_mv https://repositorio.lamolina.edu.pe/bitstreams/2870cf99-661a-4c6d-aa4a-994a59ce7333/download
https://repositorio.lamolina.edu.pe/bitstreams/dfd7814d-bf69-4eed-bec2-ed55994deacf/download
https://repositorio.lamolina.edu.pe/bitstreams/94a7f8fc-92f8-4203-889f-df89a356d17b/download
https://repositorio.lamolina.edu.pe/bitstreams/c3c27954-4644-4074-a335-701186b1e646/download
bitstream.checksum.fl_str_mv 97c5bee00fbb4c4f8867bd742b579336
2589fe3c656d711f30a78eb706a5ab5c
71663f6dbfbe826aa73fa1f63840b364
f1c7c9ed1bc9b051ccf0c44a861ce17b
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositorio Universidad Nacional Agraria La Molina
repository.mail.fl_str_mv dspace@lamolina.edu.pe
_version_ 1845076759826923520
spelling Menacho Chiok, César Higinio24697233-8c9f-49a2-9451-cdbd32b1315cCollazos Tuesta, Oscar Ronald2021-08-10T19:27:38Z2021-08-10T19:27:38Z2021https://hdl.handle.net/20.500.12996/4851Universidad Nacional Agraria La Molina. Facultad de Economía y Planificación. Departamento Académico de Estadística e InformáticaLa Encuesta Nacional de Hogares (ENAHO), es el instrumento que utiliza el Instituto Nacional de Estadística e Informática (INEI) para recopilar a nivel nacional los datos de los hogares sobre su condiciones económicas, educativas, salud, etc. y que permiten generar indicadores que miden el estado y la evolución de la pobreza, el bienestar y las condiciones de vida de los hogares del Perú, así como para efectuar diagnósticos y medir el alcance de los programas sociales (alimentarios y no alimentarios) en la mejora de las condiciones de vida de la población peruana. Sin embargo, un problema que debe enfrentar la ENAHO es la no respuesta total o parcial en las unidades de muestreo (no respuesta en unidades) o en una pregunta específica (no respuesta por ítem); sobre todo a las preguntas referidas a los ingresos de los hogares. Para el tratamiento de los datos faltantes, se han propuesto una variedad de métodos que comprenden desde el más simple que consiste en la eliminación de las observaciones que tengan algún dato faltante en una de las variables hasta métodos más consistentes basados en un proceso de imputación con los datos faltantes a partir de los datos completos. El objetivo de esta investigación es presentar y aplicar los métodos de imputación de la media y mediana, el método Hot-Deck y el k vecino más cercano para estimar los datos faltantes del Ingreso por hogar en la ENAHO 2017 trimestre 3. Los resultados indican que los datos faltantes del ingreso tienen un mecanismo MCAR. La estimación del intervalo de confianza del 95% para la media de los ingresos imputados, tuvieron amplitudes por el método de la media 131,41 (el menor) mientras que por el k vecino más cercano fue 139,4. Para estimación de la desviación estándar del ingreso, fue el menor para la media 92,97 y k vecino más cercano 100,99. Los resultados de la comparación de los métodos de imputación, fueron usando los datos completos para generar una muestra aleatoria de datos faltantes artificiales y luego se hallaron el Cuadrado Medio del Error (ECM) y correlaciones con los datos observados e imputados para cada método. El método del k vecino más cercano tuvo los menores valores de ECM 1412,6 y 444,4 para la media y mediana; mientras que los otros métodos sus valores fueron por la media 1504,5; por la mediana 1619,9 y por el Hot-Deck 1963,7. Los coeficientes de correlaciones resultaron con valores muy similares, para k vecino más cercano 0,968 con la media y 0,964 con la mediana.The National Household Survey (ENAHO) is the instrument used by the National Institute of Statistics and Informatics (INEI) to collect national data on household economic, educational and health conditions, etc. and that allow generating indicators that measure the status and evolution of poverty, well-being and living conditions of Peruvian households, as well as to carry out diagnoses and measure the scope of social programs (food and non-food) in the improvement of the living conditions of the Peruvian population. However, a problem that ENAHO must face is the total or partial non-response in the sampling units (non-response in units) or in a specific question (non-response per item); especially to the questions referring to the income of the households. For the treatment of missing data, a variety of methods have been proposed , ranging from the simplest, which consists of elimination of observations that have some missing data in one of the variables, to most consistent methods based on an imputation process with the missing data from the complete data. The objective of this research is to present and apply the imputation methods of the mean and median, the Hot-Deck method and the nearest k neighbor to estimate the missing data of the Income per household in the ENAHO 2017 quarter 3. The results indicate that missing income data has a MCAR mechanism. The estimate of the 95% confidence interval for the mean of the imputed income, had amplitudes by the method of the mean 131.41 (the smallest) while for the nearest k neighbor it was 139.4. To estimate the standard deviation of income, it was the lowest for the mean 92.97 and k nearest neighbor 100.99. The results of the comparison of the imputation methods, were using the complete data to generate a random sample of artificial missing data, and then the Mean Square Error (ECM) and correlations with the observed and imputed data for each method were found. The closest neighbor k method had the lowest ECM values of 1412.6 and 444.4 for the mean and median; while the other methods their values were by the average 1504.5; by the median 1619.9 and by the Hot-Deck 1963.7. The correlation coefficients resulted in very similar values, for k nearest neighbor 0.968 with the mean and 0.964 with the median.application/pdfspaUniversidad Nacional Agraria La MolinaPEinfo:eu-repo/semantics/openAccesshttps://creativecommons.org/licenses/by/4.0/HogaresFamiliaPobrezaEncuestasRecolección de datosAnálisis de datosMétodos estadísticosDatos estadísticosPerúMétodo de k-vecinoMecanismo MCARhttps://purl.org/pe-repo/ocde/ford#4.05.00Imputación de datos faltantes en los ingresos por hogar en la Enaho utilizando el método del K-vecino más cercanoinfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersionreponame:UNALM-Institucionalinstname:Universidad Nacional Agraria La Molinainstacron:UNALMSUNEDUEstadística e InformáticaUniversidad Nacional Agraria La Molina. Facultad de Economía y PlanificaciónIngeniero Estadístico Informático41290137https://orcid.org/0000-0003-1310-255107108718https://purl.org/pe-repo/renati/type#tesishttps://purl.org/pe-repo/renati/level#tituloProfesional542026Miranda Villagomez, Clodomiro FernandoPorras Cerrón, Jaime CarlosLópez de Castilla Vásquez, CarlosLICENSElicense.txtlicense.txttext/plain; charset=utf-81664https://repositorio.lamolina.edu.pe/bitstreams/2870cf99-661a-4c6d-aa4a-994a59ce7333/download97c5bee00fbb4c4f8867bd742b579336MD52ORIGINALcollazos-tuesta-oscar-ronald.pdfcollazos-tuesta-oscar-ronald.pdfTexto completoapplication/pdf1168745https://repositorio.lamolina.edu.pe/bitstreams/dfd7814d-bf69-4eed-bec2-ed55994deacf/download2589fe3c656d711f30a78eb706a5ab5cMD51TEXTcollazos-tuesta-oscar-ronald.pdf.txtcollazos-tuesta-oscar-ronald.pdf.txtExtracted texttext/plain171784https://repositorio.lamolina.edu.pe/bitstreams/94a7f8fc-92f8-4203-889f-df89a356d17b/download71663f6dbfbe826aa73fa1f63840b364MD53THUMBNAILcollazos-tuesta-oscar-ronald.pdf.jpgcollazos-tuesta-oscar-ronald.pdf.jpgGenerated Thumbnailimage/jpeg3117https://repositorio.lamolina.edu.pe/bitstreams/c3c27954-4644-4074-a335-701186b1e646/downloadf1c7c9ed1bc9b051ccf0c44a861ce17bMD5420.500.12996/4851oai:repositorio.lamolina.edu.pe:20.500.12996/48512023-01-05 04:21:14.415https://creativecommons.org/licenses/by/4.0/info:eu-repo/semantics/openAccessopen.accesshttps://repositorio.lamolina.edu.peRepositorio Universidad Nacional Agraria La Molinadspace@lamolina.edu.peTGljZW5jaWEgZGUgVXNvCgpMYSBVbml2ZXJzaWRhZCBOYWNpb25hbCBBZ3JhcmlhIExhIE1vbGluYSAoVU5BTE0pLiBkaWZ1bmRlIG1lZGlhbnRlIHN1IHJlcG9zaXRvcmlvIGxvcyB0cmFiYWpvcyBkZSBpbnZlc3RpZ2FjacOzbiBwcm9kdWNpZG9zIHBvciBsb3MgbWllbWJyb3MgZGUgbGEgdW5pdmVyc2lkYWQuIEVsIGNvbnRlbmlkbyBkZSBsb3MgZG9jdW1lbnRvcyBkaWdpdGFsZXMgZXMgZGUgYWNjZXNvIGFiaWVydG8gcGFyYSB0b2RhIHBlcnNvbmEgaW50ZXJlc2FkYSAuCgpTZSBhY2VwdGEgbGEgZGlmdXNpw7NuIHDDumJpY2EgZGUgbGEgb2JyYSwgc3UgY29waWEgeSBkaXN0cmlidWNpw7NuLiBQYXJhIGVzdG8gZXMgbmVjZXNhcmlvIHF1ZSBzZSBjdW1wbGEgY29uIGxhcyBzaWd1aWVudGVzIGNvbmRpY2lvbmVzOgoKRWwgbmVjZXNhcmlvIHJlY29ub2NpbWllbnRvIGRlIGxhIGF1dG9yw61hIGRlIGxhIG9icmEsIGlkZW50aWZpY2FuZG8gb3BvcnR1bmEgeSBjb3JyZWN0YW1lbnRlIGEgbGEgcGVyc29uYSBxdWUgcG9zZWEgbG9zIGRlcmVjaG9zIGRlIGF1dG9yLgoKTm8gZXN0w6EgcGVybWl0aWRvIGVsIHVzbyBpbmRlYmlkbyBkZWwgdHJhYmFqbyBkZSBpbnZlc3RpZ2FjacOzbiBjb24gZmluZXMgZGUgbHVjcm8gbyBjdWFscXVpZXIgdGlwbyBkZSBhY3RpdmlkYWQgcXVlIHByb2R1emNhIGdhbmFuY2lhcyBhIGxhcyBwZXJzb25hcyBxdWUgbG8gZGlmdW5kZW4gc2luIGVsIGNvbnNlbnRpbWllbnRvIGRlbCBhdXRvciAoYXV0b3IgbGVnYWwpLgoKTG9zIHRyYWJham9zIHF1ZSBzZSBwcm9kdXpjYW4sIGEgcGFydGlyIGRlIGxhIG9icmEsIGRlYmVuIHBvc2VlciBsYSBjaXRhY2nDs24gcGVydGluZW50ZSB0YWwgY29tbyBsbyBpbmRpY2FuIGxhcyBOb3JtYXMgVMOpY25pY2FzIGRlbCBJSUNBIHkgQ0FUSUUgZGUgUmVkYWNjacOzbiBkZSBSZWZlcmVuY2lhcyBCaWJsaW9ncsOhZmljYXMuIENhc28gY29udHJhcmlvLCBzZSBpbmN1cnJpcsOhIGVuIGxhIGZpZ3VyYSBqdXLDrWRpY2EgZGVsIHBsYWdpby4KCkxvcyBkZXJlY2hvcyBtb3JhbGVzIGRlbCBhdXRvciBubyBzb24gYWZlY3RhZG9zIHBvciBsYSBwcmVzZW50ZSBsaWNlbmNpYSBkZSB1c28uCgpEZXJlY2hvcyBkZSBhdXRvcgoKTGEgVU5BTE0gbm8gcG9zZWUgbG9zIGRlcmVjaG9zIGRlIHByb3BpZWRhZCBpbnRlbGVjdHVhbC4gTG9zIGRlcmVjaG9zIGRlIGF1dG9yIHNlIGVuY3VlbnRyYW4gcHJvdGVnaWRvcyBwb3IgbGEgbGVnaXNsYWNpw7NuIHBlcnVhbmE6IExleSBzb2JyZSBlbCBEZXJlY2hvIGRlIEF1dG9yIHByb211bGdhZG8gZW4gMTk5NiAoRCBMLiBOwrA4MjIpLiBMZXkgcXVlIG1vZGlmaWNhIGxvcyBhcnTDrWN1bG9zIDE4OCogeSAxODkqIGRlbCBkZWNyZXRvIGxlZ2lzbGF0aXZvIE7CsDgyMiwgTGV5IHNvYnJlIGRlcmVjaG9zIGRlIGF1dG9yIHByb211bGdhZG8gZW4gMjAwNSAoTGV5IE7CsDI4NTE3KSwgRGVjcmV0byBMZWdpc2xhdGl2byBxdWUgYXBydWViYSBsYSBtb2RpZmljYWNpw7NuIGRlbCBEZWNyZXRvIExlZ2lzbGF0aXZvIE7CsDgyMiwgTGV5IHNvYnJlIGVsIERlcmVjaG8gZGUgQXV0b3IgcHJvbXVsZ2FkbyBlbiAyMDA4IChELiBMLiBOwrAxMDc2KS4KCk9ic2VydmFjaW9uZXM6CgpJbnNjcmliaXJzZSBlbiBDcmVhdGl2ZSBDb21tb25zIEJBTgo=
score 12.815889
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).