CouseraのDeepLearningのコース2つめ最終週．学習メモです．

Hyperparameter tuning

Tuning process

これまで見てきたように，チューニングするべきhyperparameterはいっぱいある．これをうまくチューニングするためのガイドラインを説明する．

チューニング対象

チューニングするべき対象は以下の通り．

学習率α
Momentumのβ
Adamのパラメータβ1とβ2
Layer数
隠れユニット数
学習率減衰の係数
ミニバッチサイズ

このうち，一番大切なチューニング対象は学習率αであり，積極的にチューニングを行う．次に大事なのはMomentumのβと隠れユニット数，ミニバッチサイズである．これらもチューニングする．そのあとに大事なのがLayer数と学習率減衰の係数であり，これはあまりチューニングしない．最後に，Adamのためのパラメータはほぼチューニングせずにデフォルトの値を用いることが多い．

チューニング方法

単純化するために2つのパラメータを考える．

従来のやり方では，例えばN回の施行ができるとすると，2つのパラメータから√N個ずつ候補を決め，それらをGrid的に全探索して良いものを最適な組み合わせとして使っていた．この方法では，各パラメータについて√N個のパターンを試すことしかできないため，実はあまり効率が良くなかった．

そこで，DeepLearningの世界では，Grid的な探索は行わず，ランダムにN個の候補をパラメータ空間から取り出して探索を行う．こうすることで，各パラメータに対してN個の値を施工することができ，効率が良くなる．

さらに，必要に応じて粗密サンプリングを行う．粗密サンプリングとは，2つのステップからなるチューニング方法で，

まずパラメータ空間の中で荒く候補点を決めて探索する
良い結果が得られたサンプル付近からさらに重点的に候補点を抽出し，改めて探索する

という方法である．

闇雲に全探索するより効率が良い．

Using an appropriate scale to pick hyperparameters

必ずしもリニアスケール上でランダムサンプリングすれば良いというわけではないというお話．

例えば隠れユニット数について，だいたい50-100の間くらいに正解があるだろうという状況であればリニアスケール上でランダムにサンプリングして探索すれば問題ない．

一方で，学習率αについて，0.0001から1くらいの間に正解があると思われるときに，リニアスケールでランダム抽出すると効率がよくない．

何も考えずにランダム抽出すると抽出される候補の割合が，0.0001~0.1が10%,0.1~1が90%になる． αのようなレンジの場合，そうではなく，0.0001~0.001と0.001~0.01と0.01~0.1と0.1~1の間のサンプルの割合を等しくしたい．そんな時はリニアスケールではなくログスケール上でのランダムサンプリングを行う必要があるので注意が必要．