Análisis de la configuración de ventanas de tiempo para el reconocimiento de actividades humanas utilizando Random Forest en el MHealth dataset

Descripción del Articulo

Con el incremento de gestión de datos de reconocimiento de actividades humanas (HAR) que se maneja año tras año para su uso en distintas disciplinas, es importante realizar una correcta preparación de estos antes de ser utilizados para el entrenamiento de distintos modelos machine learning. El pre-p...

Descripción completa

Detalles Bibliográficos
Autor: Hidalgo Hidalgo, Natalia Elizabeth
Formato: tesis de grado
Fecha de Publicación:2025
Institución:Universidad de Piura
Repositorio:UDEP-Institucional
Lenguaje:español
OAI Identifier:oai:pirhua.udep.edu.pe:11042/7705
Enlace del recurso:https://hdl.handle.net/11042/7705
Nivel de acceso:acceso abierto
Materia:Procesamiento electrónico de datos -- Rendimiento -- Investigaciones
Aprendizaje automático (Inteligencia artificial) -- Investigaciones
006.31
https://purl.org/pe-repo/ocde/ford#2.11.04
Descripción
Sumario:Con el incremento de gestión de datos de reconocimiento de actividades humanas (HAR) que se maneja año tras año para su uso en distintas disciplinas, es importante realizar una correcta preparación de estos antes de ser utilizados para el entrenamiento de distintos modelos machine learning. El pre-procesamiento de datos utilizando ventanas de tiempo, el cual es utilizado para representar mejor las actividades dinámicas representadas en los datasets, no cuenta con un estudio que verifique si este tratamiento previo influye sobre el procesamiento a realizar; tratamiento que, de tener influencia sobre procesamientos futuros, podría por una parte generar modelos más efectivos con la configuración correcta o podría generar modelos con menos precisión y/o que requieran de más consumo computacional. El objetivo de este trabajo es identificar la repercusión que los parámetros de tamaño de ventanas de tiempo (window size) y porcentaje de solapamiento (overlapping) tienen sobre la precisión de modelos entrenados. Se eligió el MHEALTH dataset por su confiabilidad ya demostrada en investigaciones previas, la cantidad de datos suficiente que representa información sobre 12 tipos de actividades humanas y la inclusión de registros de 3 dispositivos ubicados en 3 partes del cuerpo. El MHEALTH dataset será sometido a distintas configuraciones de los parámetros de window size y overlapping para comprobar la influencia de los mismos sobre la precisión final. El algoritmo de machine learning con el que se realizará el procesamiento de datos será Random Forest, considerado por sus altos niveles de precisión en modelos HAR. El objetivo es obtener las métricas de precisión de cada configuración de ventanas de tiempo a estudiar. Para el análisis de los resultados de las configuraciones de ventanas de tiempo (pre procesamiento), se utilizará un submuestreo para el análisis de varianza (ANOVA), la prueba tde Student para muestras independientes, la prueba de homocedasticidad de varianzas y las pruebas de Kruskal-Wallis, Mann Whitney para reconocer las configuraciones con diferencias significativas y la influencia de los parámetros de pre-procesamiento, así como los tests de Anderson-Darling, Kolmogorov-Smirnov y Jarque-Bera para comprobar que los datos sigan una distribución normal. A través de este estudio se demuestra el impacto que tienen el tamaño de ventana y el porcentaje de solapamiento sobre la precisión de los modelos finales, evidenciando la importancia de la configuración adecuada de ventanas de tiempo al momento de realizar el pre-procesamiento de datos.
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).