顔ランドマークデータセットまとめ (AFLW, LFPW, COFW, 300-W, WFLW)

仕事で顔ランドマーク推定について調査・検証などを行い始めているのですが、各手法の学習・評価で使われているデータセットについてかなり混乱しました。

元々は何を目的として (= 評価したくて) 作られたデータセットなのか？
ランドマークの点数や位置、遮蔽されている場合のランドマークの有無など、どうなっているのか？
(略字に "W" が多くて、区別して覚えられない...)

そこで、頻出する "in the wild" 系のデータセットを5つ取り上げて目的・収集方法・データサイズ・ランドマーク数などの観点で整理したいと思います。これら5つのデータセットは、コントロールされた撮影環境ではなく、いずれもインターネットの画像をソースとしており、様々な条件・シチュエーションで撮影された写真を集めたデータセットとなっています。そのためランドマーク推定でも難しい部類になります。

AFLW
LFPW
COFW
300-W
WFLW

主にこちらを参考にしました。

arxiv.org

AFLW (Annotated Facial Landmarks in the Wild)

AFLWは2011年発表のデータセットで、Flickrの画像をアノテーションすることで正面以外の多様な顔向きを含めることを実現しています。顔ランドマーク以外にも、顔向き (yaw, roll, pitch) ・表情・性別・年齢の推定などにも使えるデータセットとなっています。

公式サイト, paper (PDF)¹
- 非営利の研究目的にのみ利用可能 (ダウンロード方法等は公式サイト参照)
アノテーション有り画像数: 25993枚
- Flickrがソース
- 内21997枚が実際の写真
- 概ねカラー画像で、同一画像に複数人を含む場合もある
ランドマーク数: 21点
- 見切れなどによって見えない場合はアノテーションされない (21点未満の画像も含む)
- 正面だけではなく、広いレンジの顔向きを含む

f:id:ohke:20200307111150p:plain — サイトより抜粋

LFPW (Labeled Face Parts in the Wild)

CVPR2011で発表されたデータセットです。visibilityもラベルとして付与されています。

公式サイト, paper (PDF)²
- アノテーションデータは公式サイトからダウンロード可能 (画像はURLで外部参照しているが、リンク切れも多い)
アノテーション有り画像数: 1432枚
- GoogleやFlickr、Yahooなどの検索で得られた画像から、商用の顔検出システムで抽出 (横顔が検出されずに除外されたものが多い)
ランドマーク数: 29点
- ソーシャルワーキングサービス (Amazon Mechanical Turk) で同じ画像を最大3人がアノテーション
- 各ランドマークのvisibilityは4パターンで付けられてます (2や3でもx, yが付与されている)
  - 0: Visible
  - 1: obscured by hair/glasses/etc.
  - 2: hidden because of viewing angle
  - 3: hidden because of image crop

f:id:ohke:20200307121415p:plain — paper fig.2抜粋

COFW (Caltech Occluded Faces in the Wild)

RCPRという手法 (公式サイト参照) とともに2013年に提案された顔ランドマーク推定タスク用のデータセットです。大きく上下左右を向いていたり、手やサングラスなどで遮蔽されている画像が多く含まれます。数は少ないですが質は良さそうなので、特定タスクの評価用として使いやすいかもです。

公式サイト, paper (PDF)³
- 公式サイトからダウロード可能
アノテーション有り画像数: 1007枚
- 4人のCV専門家が複数のデータソースからサンプリング
ランドマーク数: 29点
- LFPWと同じ
- 全体のランドマークの内23%が遮蔽されています

f:id:ohke:20200307120512p:plain — paper抜粋

300-W

ICCV2013と併せて開催されたベンチマークチャレンジで使われたデータセットです。複数のデータセットを、半教師あり学習で再アノテーションしたデータセットとなっています。

公式サイト, paper(PDF)⁴
- 非商用の研究・学術用途のみ
学習セットは、4つのデータセット (LFPW, AFW, HELEN, XM2VTS) を半教師あり学習⁵で再アノテーション + IBUGのデータセット (135枚)
- このIBUGの135枚を指して "300-W" と呼ばれることもあります
テストセットは、新たに集められた600枚 (屋内300枚 + 屋外300枚)

f:id:ohke:20200307143314p:plain — paper table 1.抜粋

f:id:ohke:20200307143235p:plain — paper table.2抜粋

ランドマーク数: 68点
- Multi-PIEデータセットと揃えている

f:id:ohke:20200307130729p:plain — 公式サイトFigure 1抜粋

WFLW (Wider Facial Landmarks in-the-wild)

CVPR2018にて発表されたデータセット。WIDER FACE⁶ (顔検出タスクのデータセット) をベースにアノテーションしてます。

公式サイト, paper (PDF)⁷
- 画像・アノテーションの両方を公式サイトからダウンロード可能
アノテーション有り画像数: 10000枚
- ポーズ、表情、イルミネーション、メイク、遮蔽、ピンぼけなどのメタデータを含む
- 場合分けして評価したい場合に使いやすい

f:id:ohke:20200311151125p:plain — 公式サイト抜粋

ランドマーク数: 98点
- 遮蔽・見切れに対してもアノテーションされている

f:id:ohke:20200311145805p:plain — 公式サイト抜粋

まとめ

今回は顔ランドマーク検出で用いられるデータセット (AFLW, LFPW, COFW, 300-W, WFLW) を5つを紹介しました。

Annotated Facial Landmarks in the Wild: A Large-scale, Real-world Database for Facial Landmark Localization. Martin Koestinger, Paul Wohlhart, Peter M. Roth and Horst Bischof. In Proc. First IEEE International Workshop on Benchmarking Facial Image Analysis Technologies, 2011↩
Localizing Parts of Faces Using a Consensus of Exemplars. Peter N. Belhumeur, David W. Jacobs, David J. Kriegman, Neeraj Kumar. Proceedings of the 24th IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2011.↩
Robust face landmark estimation under occlusion.  X. P. Burgos-Artizzu, P. Perona and P. Dollár.  ICCV 2013, Sydney, Australia, December 2013.↩
Sagonas, C., Tzimiropoulos, G., Zafeiriou, S., Pantic, M.: 300 faces in-the-wild challenge: The first facial landmark localization challenge. In: IEEE International Conference on Computer Vision, 300 Faces in-the-Wild Challenge (300-W). Sydney, Australia (2013)↩
C. Sagonas, G. Tzimiropoulos, S. Zafeiriou, and M. Pantic. A semi-automatic methodology for facial landmark annotation. In Computer Vision and Pattern Recognition Workshops (CVPRW), 2013 IEEE Conference on, pages 896–903. IEEE, 2013.↩
S. Yang, P. Luo, C. C. Loy, and X. Tang. Wider face: A face detection benchmark. In CVPR, 2016.↩
Wu, Wayne and Qian, Chen and Yang, Shuo and Wang, Quan and Cai, Yici and Zhou, Qiang. Look at Boundary: A Boundary-Aware Face Alignment Algorithm. CVPR, 2018.↩