yiskw note

機械学習やプログラミングについて気まぐれで書きます

Pulling Actions out of Context: Explicit Separation for Effective Combinationを読んだのでメモ


概要

動画認識において,現状のシステムでは人間の行動と,それに付随する有意な要因(物体や背景など)の分離がうまくいっておらず,行動認識の結果が背景に影響を受けてしまうことがある.

そこで本研究では,行動を含む動画とコンテキスト(背景,物体,カメラモーションなどあらゆる視覚情報)が似ているが行動を含まない動画(conjugate sample)からの情報を活用することで,追加のアノテーションなしで,人間の行動とコンテキストの情報を分離する手法を提案.

image

提案手法

動画の行動が起きてる場所の前後のフレームをconjugate samplesと定義する. そうするとコンテキストの情報がほとんど全て同じで, それ以外の行動の情報のみが異なる動画を用意することができる.

conjugate samplesを有効に活用するナイーブな方法は,conjugate samplesを負例として扱う方法であるが,これはあまりうまくいかない.なぜなら,この方法ではcontextの情報がネガティブな根拠だと判断してしまうからだ.しかしながら,contextの情報は分類に有効になることもあるため,この方法はうまくいかない. もう一つのナイーブな方法は,全てのconjugate samplesを正例として扱う方法である.しかしながらこれも有効ではない.というのもconjugate samplesには行動の情報が含まれてなく,この方法では行動の情報を学習することができない.

image

そこで本研究では,上図のようなアプローチを提案している.行動認識器は,action extractor, context extractor, action classifierの3つからなる.この行動認識器を (i) classification loss (ii) action sample と conjugate sampleの行動特徴量の類似度 (iii) action sample と conjugate sampleのコンテキスト特徴の相違度,の3つを最小化するように学習させる.

ネットワークはC3Dをベースにしている.

学習ステップは以下の通り.

image

実験

image

提案法で精度向上を確認

Reference

Yang Wang and Minh Hoai, "Pulling Actions out of Context: Explicit Separation for Effective Combination", in CVPR 2018

paper