1
tesis de maestría
Publicado 2016
Enlace
Enlace
The proposed method consists of three parts: features extraction, the use of bag of words and classification. For the first stage, we use the STIP descriptor for the intensity channel and HOG descriptor for the depth channel, MFCC and Spectrogram for the audio channel. In the next stage, it was used the bag of words approach in each type of information separately. We use the K-means algorithm to generate the dictionary. Finally, a SVM classi fier labels the visual word histograms. For the experiments, we manually segmented the videos in clips containing a single action, achieving a recognition rate of 94.4% on Kitchen-UCSP dataset, our own dataset and a recognition rate of 88% on HMA videos.
2
tesis de maestría
Publicado 2016
Enlace
Enlace
El método propuesto consta de tres partes: la extracción de características, el uso de bolsa de palabras y la clasificación. Para la primera etapa se usó los descriptores STIP para el canal de intensidad, HOG para el canal de profundidad , MFCC y Espectrograma para el canal de audio. En la siguiente etapa se utilizó bolsa de palabras en cada tipo de información por separado. Para la generación del diccionario se usó K-means y para el proceso de clasificación se utilizó SVM. En la parte de experimentos los videos fueron divididos en clips, llegando a tener una tasa de asertividad del 94.4 % en la base de vıdeos Kitchen-UCSP, que fue elaborada para esta investigación y una tasa de asertividad del 88 % en la base de videos HMA.