Mimetics: Towards Understanding Human Actions Out of Contextを読んだのでメモ
はじめに
Philippe Weinzaepfel et al. "Mimetics: Towards Understanding Human Actions Out of Context"を読んだので,その内容をメモしておきます. contextがない行動を集めたMimetics datasetを作成し,Mimeticsデータセットでの様々な手法の比較実験や,contextがない行動に対しても比較的高い精度で行動認識を行えるベースラインの提案をしています.
背景・概要
近年深層学習の発展やkinetics400などの大規模データセットの登場で,行動認識に関する研究が盛んに行われるようになってきたが,従来手法では背景や物体だけを見て判断してしまうcontext biasが問題となっている.こういった手法は,contextがない行動に対してのうまく認識できないことがある(下図).
そこで本研究では,contextがない行動を集めたMimetics datasetを提案し,ベースラインの提案や,Mimetics datasetを用いた手法の性能比較を行なっている.
手法
Mimetics dataset
動画数: 713
Kinetics400にある行動クラスのうち50クラスの使用
動画にはsceneやobjectなどのcontextの情報がない.
学習に用いるデータセットではなく,手法が動きの情報を見ているかどうかの評価に用いられる.
Mimetics datasetのサンプルは以下の動画を参照.みた感じかなり難しそうなデータになっている.
ベースライン
本研究では3つのベースラインを提案している.
- STGCN2D / STGCN3D ... LCR-Net++を使用して,2D/3Dの関節点を推定し,Spatio-temporal Graph Convolutional Networkに入力し行動を認識
結果
Kinetics400の動画をマスクした際の精度
Kinetics400で動画をマスクした際に分類精度が上がるクラスの例
Memeticsでの精度
SIP-Netが一番良さげだが,精度自体はかなり低め
ベースラインの他データセットでの精度
他のデータセットでは,SIP-Netはあんまりうまくいっていない
実際の分類結果
個人的なメモ
提案するSIP-Netは,確かにMimeticsではうまくいっているが,Kineticsなどでは全然うまくいってないので,コンテキストがある行動とそうでない行動のどちらにも高い精度を出すのはかなり工夫が必要そう.