Is 2D Heatmap Representation Even Necessary for Human Pose Estimation?を読んだのでメモ
概要
従来のヒートマップベースのキーポイント推定の手法は
- 低解像度の画像に対しての精度が低い
- 精度を向上させるには HourglrassNetのようなアップサンプリングを使用したものが必要
- 後処理の際に、ダウンスケールしたヒートマップの量子化誤差を軽減する必要がある
という問題点があった。
そこでヒートマップを使用しない新たなキーポイントの表現方法を提案。
ヒートマップをx軸とy軸の2軸に分解し、それぞれ独立にキーポイントの位置を推定する。
COCOデータセットでヒートマップベースの手法を上回る結果に。
提案手法
任意のエンコーダー(e.g. CNN, Transformer)から画像の特徴量を抽出し、
Linear Projectionによって、それぞれn個のx方向、y方向のヒートマップの度合いを表した1次元ベクトル(o_x, o_y)を得る。
それぞれの1次元ベクトルの組み合わせに対してargmaxを取ることでキーポイントを決定する。
教師データを0, 1の離散値として、損失関数はクロスエントロピーを使用。
上記の教師ラベルでは、負例全てを同等に扱ってしまうが、それだと空間方向の情報を無視してしまう。
そのため、正解位置を平均として正規分布を教師ラベルとして扱う、SimDR*も提案している。
実験
ヒートマップベースの手法 vs 提案法
ヒートマップベースの手法 vs SimDR vs SimDR*
低解像度の画像での精度比較