yiskw note

機械学習やプログラミングについて気まぐれで書きます

Is 2D Heatmap Representation Even Necessary for Human Pose Estimation?を読んだのでメモ


概要

f:id:yiskw713:20210713072257p:plain

従来のヒートマップベースのキーポイント推定の手法は

  1. 低解像度の画像に対しての精度が低い
  2. 精度を向上させるには HourglrassNetのようなアップサンプリングを使用したものが必要
  3. 後処理の際に、ダウンスケールしたヒートマップの量子化誤差を軽減する必要がある

という問題点があった。
そこでヒートマップを使用しない新たなキーポイントの表現方法を提案。
ヒートマップをx軸とy軸の2軸に分解し、それぞれ独立にキーポイントの位置を推定する。
COCOデータセットでヒートマップベースの手法を上回る結果に。

提案手法

f:id:yiskw713:20210713072322p:plain

任意のエンコーダー(e.g. CNN, Transformer)から画像の特徴量を抽出し、
Linear Projectionによって、それぞれn個のx方向、y方向のヒートマップの度合いを表した1次元ベクトル(o_x, o_y)を得る。
それぞれの1次元ベクトルの組み合わせに対してargmaxを取ることでキーポイントを決定する。
教師データを0, 1の離散値として、損失関数はクロスエントロピーを使用。

上記の教師ラベルでは、負例全てを同等に扱ってしまうが、それだと空間方向の情報を無視してしまう。
そのため、正解位置を平均として正規分布を教師ラベルとして扱う、SimDR*も提案している。

実験

ヒートマップベースの手法 vs 提案法

f:id:yiskw713:20210713074343p:plain

ヒートマップベースの手法 vs SimDR vs SimDR*

f:id:yiskw713:20210713074540p:plain

低解像度の画像での精度比較

f:id:yiskw713:20210713074549p:plain

Reference