CouseraのDeepLearningのコース受講メモ． CNNのコースの最後

Face Recognition

What is face recognition?

face recognitionとして扱う問題は大きく分けて2つあり，顔認証と顔認識である．

顔認証はカメラで撮った顔画像とIDを元に，提示されたIDの所有者がその顔の人かどうかを判定する． IDを元にシステムから顔画像を持ってきて，撮影された顔がシステムから持ってきた画像と同一人物かそうでないかを判定する．撮影された画像1に対して，システムが持っている画像1が正しいかを判定するタスクであり，後述の顔認識と比べると比較的簡単．

顔認識は，カメラで撮った画像が，システムに格納されているどの人物かを当てる．顔認証とは異なり，IDは存在しない．撮影された画像1に対して，システムが保持するK人の顔画像と比較し，K+1(いずれでもないを含める)にクラスわけする．顔認識は顔認証に比べて難しい．

One Shot Learning

従業員の入退ゲートの制御にシステムを用いたいが，そのシステムに組み込むモデルの学習に使えるデータは多くないはず．とある従業員の顔画像なんて1つしか得られないこともある．そのため，通常のCNNだと教師データが足りずにうまく動作しない．

これをうまくいかせるために，考え方を変える． d(image1, image2)=画像がどの程度異なるかを出力する関数を学習させることで，これを実現する． d(A,B)は大きな値を，d(A,A')は小さな値を出力するような関数を学習させておくことで，システムが保持する従業員の写真と，撮影した写真を比較してその二つが同一人物であるかどうかの評価値が得られる．

関数dの学習は必ずしも識別したい従業員の写真がなくても可能で，学習済みのモデルを新たな従業員に適用してもうまく動作する．

具体的な方法を次の章で説明する．

Siamese Network

CNNで得られる層の途中の表現を取り出して，それを特徴量としてエンコーディングされたベクトルと呼ぶ(図1)．

f:id:masamasah:20180922141732j:plain

このエンコーディングされた特徴量を比較したい画像についてそれぞれ計算し，その距離(L2ノルム)を計算することでどの程度似ているかを明らかにする(図2)．

f:id:masamasah:20180922141744j:plain

同じ人の画像であればL2ノルムは小さく，異なる人の画像であればL2ノルムは大きくなる．

Triplet Loss

特徴量を適切にエンコーディングできるCNNはどのように学習するべきか？を説明する．

学習のための損失関数としてTriplet損失を使う． Tripletとは「3つ」のという意味で，認識対象の画像(Anchor)と認識対象と同一人物の画像(Positive)と異なる人物の画像(Negative)の3つのセットを用いて定義される損失である．

Triplet損失を図3に示す．

f:id:masamasah:20180922141813j:plain

左辺のノルムは「同一人物の画像をエンコーディングした際のL2ノルム」であり，右辺が「異なる人物の画像をエンコーディングした際のL2ノルム」である．このノルムについて「同一人物の画像をエンコーディングした際のL2ノルム」が「異なる人物の画像をエンコーディングした際のL2ノルム」よりα以上小さくなるようにするという制約である．なおαはhyper-parameterである．

これを規範としてCNNのモデルを学習し，エンコーディングのためのネットワークを学習する．

最終的にはこのモデルを用いて入力と比較対象をエンコーディングし，そのL2ノルムが閾値を越えなければ同一人物であると判定したりする．