yiskw note

機械学習やプログラミングについて気まぐれで書きます

Mimetics: Towards Understanding Human Actions Out of Contextを読んだのでメモ


はじめに

Philippe Weinzaepfel et al. "Mimetics: Towards Understanding Human Actions Out of Context"を読んだので,その内容をメモしておきます. contextがない行動を集めたMimetics datasetを作成し,Mimeticsデータセットでの様々な手法の比較実験や,contextがない行動に対しても比較的高い精度で行動認識を行えるベースラインの提案をしています.

背景・概要

近年深層学習の発展やkinetics400などの大規模データセットの登場で,行動認識に関する研究が盛んに行われるようになってきたが,従来手法では背景や物体だけを見て判断してしまうcontext biasが問題となっている.こういった手法は,contextがない行動に対してのうまく認識できないことがある(下図).

f:id:yiskw713:20210225211753p:plain

そこで本研究では,contextがない行動を集めたMimetics datasetを提案し,ベースラインの提案や,Mimetics datasetを用いた手法の性能比較を行なっている.

手法

Mimetics dataset

動画数: 713
Kinetics400にある行動クラスのうち50クラスの使用
動画にはsceneやobjectなどのcontextの情報がない.
学習に用いるデータセットではなく,手法が動きの情報を見ているかどうかの評価に用いられる.
Mimetics datasetのサンプルは以下の動画を参照.みた感じかなり難しそうなデータになっている.

vimeo.com

ベースライン

本研究では3つのベースラインを提案している.

  • STGCN2D / STGCN3D ... LCR-Net++を使用して,2D/3Dの関節点を推定し,Spatio-temporal Graph Convolutional Networkに入力し行動を認識

f:id:yiskw713:20210225212849p:plain

  • SIP-Net ... LCR-Net++の中間特徴量を1次元畳み込み層に入力し行動を認識する

f:id:yiskw713:20210225212927p:plain

結果

Kinetics400の動画をマスクした際の精度

f:id:yiskw713:20210225213139p:plain:w500

Kinetics400で動画をマスクした際に分類精度が上がるクラスの例

f:id:yiskw713:20210225213210p:plain:w500

Memeticsでの精度

f:id:yiskw713:20210225213242p:plain:w500

SIP-Netが一番良さげだが,精度自体はかなり低め

ベースラインの他データセットでの精度

f:id:yiskw713:20210225213254p:plain:w700

他のデータセットでは,SIP-Netはあんまりうまくいっていない

実際の分類結果

f:id:yiskw713:20210225213316p:plain:w500

個人的なメモ

提案するSIP-Netは,確かにMimeticsではうまくいっているが,Kineticsなどでは全然うまくいってないので,コンテキストがある行動とそうでない行動のどちらにも高い精度を出すのはかなり工夫が必要そう.