Exploración de modelos eficientes para la detección de violencia en videos de entornos reales mediante la destilación de conocimiento entre arquitecturas distintas: un enfoque para el prototipado rápido

Descripción del Articulo

La detección de violencia en videos es un campo crucial dentro del análisis del comportamiento humano mediante tecnologías computacionales, especialmente en sistemas de videovigilancia. Este estudio propone un enfoque multinivel que combina técnicas avanzadas de preprocesamiento de datos y distilaci...

Descripción completa

Detalles Bibliográficos
Autor: Santivañez Gutarra, Dan Joshua
Formato: tesis de maestría
Fecha de Publicación:2024
Institución:Universidad de Ingeniería y tecnología
Repositorio:UTEC-Institucional
Lenguaje:español
OAI Identifier:oai:repositorio.utec.edu.pe:20.500.12815/417
Enlace del recurso:https://hdl.handle.net/20.500.12815/417
Nivel de acceso:acceso abierto
Materia:Preprocesamiento de datos
Aprendizaje continuo
Prevención de violencia
Videovigilancia
Data preprocessing
Machine Learning
Violence prevention
Video surveillance
https://purl.org/pe-repo/ocde/ford#1.02.02
Descripción
Sumario:La detección de violencia en videos es un campo crucial dentro del análisis del comportamiento humano mediante tecnologías computacionales, especialmente en sistemas de videovigilancia. Este estudio propone un enfoque multinivel que combina técnicas avanzadas de preprocesamiento de datos y distilación de conocimiento para mejorar la eficiencia computacional y la capacidad de generalización de los modelos de detección de violencia. Se evalúan tres estrategias de preprocesamiento: extracción de personas en los frames, segmentación de personas, y detección de cajas delimitadoras. Se entrenan dos modelos preentrenados (MViTv2 y Swin3D b) utilizando tres bases de datos: RWF2000, RLVS y VioPeru, para seleccionar el modelo maestro más eficaz. Luego, se aplica distilacion de conocimiento a tres modelos estudiantes (S3D, Swin3D tiny y MC3-18) utilizando divergencia de Kullback-Leibler (KL) y su version adaptativa (AKL). Los modelos entrenados se evalúan en términos de precisión, tiempo de procesamiento y complejidad computacional, y se comparan en tareas de generalización utilizando diferentes bases de datos. Los resultados muestran que el modelo MViT alcanzo altos niveles de precisión y eficiencia, mientras que el modelo estudiante S3D, a pesar de su menor complejidad, mantuvo un rendimiento competitivo, demostrando la viabilidad de la distilacion de conocimiento como una estrategia eficaz para optimizar modelos en escenarios con recursos limitados. Este enfoque ofrece una solución práctica y eficiente para la implementación de sistemas de vigilancia autónomos en entornos reales.
Nota importante:
La información contenida en este registro es de entera responsabilidad de la institución que gestiona el repositorio institucional donde esta contenido este documento o set de datos. El CONCYTEC no se hace responsable por los contenidos (publicaciones y/o datos) accesibles a través del Repositorio Nacional Digital de Ciencia, Tecnología e Innovación de Acceso Abierto (ALICIA).