ゼロから作るDeep Learning 6章 学習に関するテクニック

前回はゼロから作るDeep Learning 5章 誤差逆伝播法 - n3104のブログです。

6章です。5章まででニューラルネットワークの学習の仕組みについては学んできたため、6章では実際に学習を行う上で選択することになる各種パラメーターについて説明しています。具体的には重みについて扱っています。まず 6.1 で重みパラメーターを探索する際の最適化手法を、6.2 では重みの初期値について、6.3 で重みの初期値の問題を学習時に解決するBatch Normalizationについて、6.4 で過学習について扱っています。

  • 6.1.3 SGD の欠点
    • 図もあるし、説明がとても分かりやすい。
    • “図 6 - 2 で表される勾配は、多くの場所で (0, 0) の方向を指さ ないということです。”
      • “図6-3 に示すようなジグザグな動きをします。"とあるように、学習できないという意味ではなくて効率が悪いという意味。
      • “つまり、SGD の欠点は、関数の形状が等方的でないと――伸びた形の関 数だと――、非効率な経路で探索することになる点にある”
        • かといって一般的に他の機械学習の手法だとSGDが利用されていると思うので、これから登場する手法もトレードオフがあるんだろうなー。
  • 6.1.4 Momentum
    • 勾配の変化も情報として扱うようにしたって感じかー。なるほど。
    • self.v[key] = np.zeros_like(val)
    • 説明だけ読むとSGDの代わりにMomentum使っておけばよさそうだけど、あまり聞かないのは何らかの制約なりトレードオフがあるんだろうなー。
  • 6.1.5 AdaGrad
    • 学習係数の減衰(learning rate decay)をパラメータ毎に実施したものということか。
    • 式自体は非常にシンプル。そのまんま。
    • 結局、勾配を利用するという部分はどの手法も同じなんだなー。
    • “最後の行で 1e-7 という小さい値を加算している点で す。これは、self.h[key] の中に 0 があった場合、0 で除算してしまうことを防ぐ ためのものです。多くのディープラーニングのフレームワークでは、この小さな値も パラメータとして設定できますが、ここでは 1e-7 として固定の値を使用しています。”
  • 6.1.6 Adam
    • MomentumとAdaGradをくっつけられないかと思ってたら、まさにそれがAdamだったw
    • “また、ハイパーパラメータの「バイアス補正(偏りの補正)」が行われてい ることも Adam の特徴です。ここでは、これ以上踏み込んで説明することは避け ます。詳細は原著論文 [8] を参照してください。”
    • “また、Python の実装については、 common/optimizer.py に Adam というクラスで実装してあるので、興味のある方 は参照してください。”
      • Adamについては理論がやや複雑というだけあって、紹介に留めてるんだなー。
      • https://arxiv.org/abs/1412.6980
        • 普通に右側のDownloadのとこからダウンロード可能。
  • 6.1.7 どの更新手法を用いるか?
    • SGD、Momentum、AdaGrad、Adam と 4 つの手法を説明してきましが、どれ を用いたらよいのでしょうか? 残念ながら、すべての問題で優れた手法というのは (今のところ)ありません。それぞれに特徴があり、得意な問題、不得意な問題があります。”
      • ですよねー。
    • “多くの研究では今でも SGD が使われています。Momentum や AdaGrad も試す価値のある手法です。最近では、多くの研究者や技術者が Adam を好んで使ってい るようです。本書では、主に SGD や Adam を使用しますが、読者の方においては、 自分の好きなようにいろいろ試してみてください。”
      • やはりSGDが使われてるんだなー。でも最近だとAdamも使われるようになってると。従来手法でもAdam使われるようになるのかなー。
  • 6.1.8 MNIST データセットによる更新手法の比較
    • “この実験の注意点として は、学習係数のハイパーパラメータや、ニューラルネットワークの構造(何層の深さ か、など)によって結果は変化するということです。ただし、一般に SGD よりも他 の 3 つの手法のほうが速く学習でき、時には最終的な認識性能も高くなります。”
      • 結局、Deep Learningになったからと言って今までよりもモデルの作成が楽になるってことはなくて、最終的な予測精度が高くなるケースがあるってぐらいなんだろうなー。。
  • 6.2.1 重みの初期値を 0 にする?
    • “なぜ重みの初期値を 0 にしてはいけない――正確には、重みを均一な値に設定して はいけない――のでしょうか? それは誤差逆伝播法において、すべての重みの値が 均一に(同じように)更新されてしまうからです。”
      • 確かに重みが 0 だと計算結果は Wij * xn = 0 でバイアス項のみが残ることになるな。でもバイアス項があるから完全には 0 にならない気もするが。。
        • 実際に4章の train_neuralnet.py で試してみた所、やはりバイアス項をランダムに初期化するだけでも学習は進んでいた。ただし、遅くなるが。そして、バイアス項も 0 にしても学習自体は進んでいた。ただし、とても遅くはなる。
          • バイアス項も 0 にしても学習が可能なのは、損失関数の結果が逆伝播するため。入力が一律 0 でも出力層で損失関数を計算するとノードによって値が異なることになるので、その差分を逆伝播する過程で少しずつ重みとバイアス項についても変化することになる。dy = (y - t) / batch_num の箇所。

デフォルトの weight_init_std=0.01 の場合 f:id:n-3104:20170716153129p:plain

weight_init_std=0 に変更した場合(biasは 0 のまま)

        weight_init_std = 0
        self.params['b1'] = np.zeros(hidden_size)
        self.params['b2'] = np.zeros(output_size)

f:id:n-3104:20170716153141p:plain

weight_init_std=0 で bias をランダムにした場合

        weight_init_std = 0
        self.params['b1'] = np.random.randn(hidden_size)
        self.params['b2'] = np.random.randn(output_size)

f:id:n-3104:20170716153152p:plain

  • 6.2.2 隠れ層のアクティベーション分布
    • 重みの初期化方法と活性化関数の組み合わせである層の出力がどのような分布となるかを確認できる。
    • 前節で 0 の場合について触れていたので実際に 0 にしてみたら全て 0.5 となった。バイアス項も無いので当然といえば当然だが。
    • “逆に、偏ったデータが流れると、勾 配消失や「表現力の制限」が問題になって、学習がうまくいかない場合があり ます。”
      • そもそもデータに偏りがあることを機械に学習させるのが機械学習だと思うのだけど、あまりに極端なケースだとDeep Learningでは扱えないってこと?それともあくまでも重みに限った話なのかなー。
    • w = np.random.randn(node_num, node_num) / np.sqrt(node_num) は割り算になっているが weight_init_activation_histogram.py は掛け算になっているので注意。
      • w = np.random.randn(node_num, node_num) * np.sqrt(1.0 / node_num)
    • tanh 関数は、sigmoid 関数と同じ S 字カーブの関数ですが、 tanh 関数が原点 (0, 0) で対称な S 字カーブであるのに対して、sigmoid 関 数は (x, y) = (0, 0.5) において対称な S 字カーブです。なお、活性化関数に 用いる関数は、原点対称であることが望ましい性質として知られています。”
      • じゃあ、最初から tanh 関数使えばいいのでは。。

tahn 関数の場合の結果は以下の通り。釣鐘型と言えばそうだけど、右半分になっているような。。 f:id:n-3104:20170716153211p:plain

  • 6.2.3 ReLU の場合の重みの初期値
    • “以上のまとめとしては、活性化関数に ReLU を使う場合は「He の初期値」、sigmoid や tanh などの S 字カーブのときは「Xavier の初期値」を使う――これが現時点で のベストプラクティスということになります。”
      • ベストプラクティスというなら従えばいいとは思うが、逆に言うと従わないとまともに学習できないってことかー。。
  • 6.2.4 MNIST データセットによる重み初期値の比較
    • なるほど。今までは学習できていた std=0.01 で学習できなくなったのは隠れ層が 1 -> 4 層に増えたからかー。で、その結果ほとんどの値が 0 になり、結果として勾配消失となって学習が進まなくなったというわけか。実際、隠れ層を 1 に変えて weight_init_compare.py を実行したら今まで通り std=0.01 でも学習できた。

隠れ層 1 の場合 f:id:n-3104:20170716153234p:plain

    networks[key] = MultiLayerNet(input_size=784, hidden_size_list=[100],
                                  output_size=10, weight_init_std=weight_type)
  • 6.3 Batch Normalization
    • “そ れでは、各層で適度な広がりを持つように、“強制的”にアクティベーションの分布 を調整してみてはどうでしょうか?”
      • こういう発想いいなー。Deep Learningが実際に利用されるようになって数年だから、まだまだこういうチューニングの余地って残されてるのかなー。
  • 6.3.1 Batch Normalization のアルゴリズム
    • “そして、入力データを平均が 0 で分 散が 1 になる――適切な分布になる――ように正規化します。”
      • 結局、やってることはこれだけといえばこれだけなんだよね。
    • “さらに、Batch Norm レイヤは、この正規化されたデータに対して、固有のスケー ルとシフトで変換を行います。”
      • たんに正規化するだけじゃなくてスケール変換とシフトしてるのが肝なのでは。
      • γとβについても学習させるのかー。実際、MultiLayerNetExtend 中で勾配を求めていて、学習させていた。
        • 勾配万能だな。。もちろん、局所解に入り込むことはあるんだろうけど、それも元の数式次第だろうし、今回みたいに単純な式だと大域解に至るのかなー。
    • “初期値にそれほど依存しない(初期値に対してそこまで神経質にならなくてよい)”
      • 図 6-19 見た感じだと、初期値もやはり重要なのでは。。とはいえ、「活性化関数に ReLU を使う場合は「He の初期値」、sigmoid や tanh などの S 字カーブのときは「Xavier の初期値」を使う」を適用した上でやるならまず大丈夫って感じかなー。
    • 過学習を抑制する(Dropout などの必要性を減らす)”
      • 6.4.3 Dropout で出てくる。"Dropout は、ニューロンをランダムに消去しながら学習する手法です。訓練時に 隠れ層のニューロンをランダムに選び出し、その選び出したニューロンを消去しま す。"
  • 6.4.1 過学習
    • “また、ネットワークの複雑性を高めるために 7 層のネットワーク――各層 のニューロンの個数は 100 個、活性化関数は ReLU――を使います。”
      • なるほど。ネットワーク自体は複雑だから訓練データの認識精度を 100% にできるのか。これはこれでおもしろい。
    • 実際に試す際は overfit_weight_decay.py の # weight decay(荷重減衰)の設定 の箇所を 0.1 -> 0 に変える必要がある。weight_decay_lambda = 0.1となっているのは次節 6.4.2 Weight decay に対応したコード。
  • 6.4.2 Weight decay
    • 要は重みに対するL2正則化
    • ノルムってそう言えばどういう意味だっけ?
    • multi_layer_net.py のソースを見ていたら、正則化項は全て隠れ層の重みを足して最後に損失関数にペナルティ項として追加されていた。ニューラルネットワークの場合は層が何層もあるのでL2正則化の場合はその全ての層の重みを足し上げるんだー。まぁ、そもそも正則化項は重みを小さくするもので、その重みが各層に存在するのだから、全ての層の重みを対象とするのは同然なんだろうけど、なんとなく乱暴な感じでおもしろかったw
      • そういう意味だとニューラルネットワークの重みに対してL1正則化は利用しないんだろうなー。
      • “Weight decay は、すべての重みに対して、損失関数に 1 λW2 を加算します。” と本文に書いてはあったんだけど、そういう意味だと読んでも気づかなかった。やはりソース読むのは大切だなー。
    • “図6-21 のとおり、訓練データの認識精度とテストデータの認識精度には“隔たり” がありますが、Weight decay を用いなかった図6-20 の結果と比較すると、その隔たりは小さくなっています。これは過学習が抑制されたということです。また、訓練データの認識精度が 100%(1.0)に到達していない点も注目すべき点です。”
      • 確かにかなり改善されてる。とはいえ、元々過学習が発生するような訓練データの少ない状況が問題なので、そういうデータを集められない状況下での過学習の抑制ぐらいにしか効果はなくて、予測精度を上げたいなら訓練データを集める方が重要なんだろうなー。それとも、一般的に適用するのかなー?
  • 6.4.3 Dropout
    • “つまり、Dropout は、アンサンブル学習と同 じ効果を(擬似的に)ひとつのネットワークで実現していると考えることがで きるのです。”
      • 表現力が高いがゆえに、1つのネットワークで複数のモデルを表現できるってことかなー。でもアンサンブル学習は認識精度の向上が目的であって過学習の抑制は目的でないと思うんだけど。。
    • dropout_ratio = 0.20, 0.50 と増やすほど過学習は抑えられたが学習自体が進まなくなった。
    • multi_layer_net_extend.py のソースを見てて思うが、ほんと概念としてのレイヤと個々の計算レイヤは別物だなと思う。DropoutもDropoutを個々の隠し層に追加してDropout付きレイヤにしてて、デコレータパターン見てるような気持ちになる。
            if self.use_dropout:
                self.layers['Dropout' + str(idx)] = Dropout(dropout_ration)

dropout_ratio = 0.20 f:id:n-3104:20170716153409p:plain

dropout_ratio = 0.50 f:id:n-3104:20170716153419p:plain

  • 6.5 ハイパーパラメータの検証
    • “ハイパーパラメータの決定には一般に多くの試行錯誤が伴い ます。ここでは、できるだけ効率的にハイパーパラメータの値を探索する方法につい て説明します。”
      • 結局、これが解決しないと従来手法と大差ない気がする。。まぁ、予測精度は従来手法より上げられるようなので、そこはブレイクスルーなんだろうけど。
  • 6.5.1 検証データ
    • “それは、テストデータを使ってハイパーパラメータを調整するとすれば、 ハイパーパラメータの値はテストデータに対して過学習を起こすことになるからで す。”
    • “そのため、ハイパーパラメータを調整する際には、ハイパーパラメータ専用の確認 データが必要になります。ハイパーパラメータの調整用のデータは、一般に検証デー タ(validation data)と呼びます。この検証データを使って、ハイパーパラメータの 良さを評価します。”
      • なるほど。別に用意するんだ。
    • “訓練データは、パラメータ(重みやバイアス)の学習に利用します。検証デー タは、ハイパーパラメータの性能を評価するために利用します。テストデータ は汎化性能をチェックするために、最後に(理想的には一度だけ)利用します。”
      • ニューロンの数まで変えたら、それは訓練からやり直しになるんでは。。
    • “ shuffle_dataset という関数は、np.random.shuffle を利用したもので、common/util.py に、その実装があります。”
  • 6.5.2 ハイパーパラメータの最適化
    • 結局探索するだけw
    • ニューラルネットワークのハイパーパラメータの最適化では、グリッドサーチ などの規則的な探索よりも、ランダムにサンプリングして探索するほうが良い 結果になることが報告されています [15] 。これは、複数あるハイパーパラメー タのうち、最終的な認識精度に与える影響度合いがハイパーパラメータごとに 異なるからです。”
      • “設定されたハイパーパラメータの範囲から、ランダムにサンプリングする。”
      • ほんとランダムなんだなーw
    • “ハイパーパラメー タの最適化において、より洗練された手法を求めるとすれば、ベイズ最適化(Bayesian optimization)が挙げられるでしょう。ベイズ最適化は、ベイズ の定理を中心とした数学(理論)を駆使して、より厳密に効率良く最適化を行 います。詳しくは、論文「Practical Bayesian Optimization of Machine Learning Algorithms」[16] などを参照してください。”
  • 6.5.3 ハイパーパラメータ最適化の実装
    • “この結果を見ると、うまく学習が進んでいるのは、学習係数が 0.001 から 0.01、 Weight decay 係数が 10−8 から 10−6 ぐらいということが分かります。このように、 うまくいきそうなハイパーパラメータの範囲を観察し、値の範囲を小さくしていき ます。そして、その縮小した範囲で同じ作業を繰り返していくのです。そのようにし て、適切なハイパーパラメータの存在範囲を狭め、ある段階で、最終的なハイパラ メータの値をひとつピックアップします。”
      • こういう作業なら機械にやらせるでいい気がする。。問題はネットワークのノード数とか隠れ層の数とかそっちだと思う。
      • 時間がネックになるという話で、結局ハードの進化に依存してる話だなと改めて思うなー。

従来手法と比べてDeep Learningニューラルネットワークを多層にすることで表現力を増やすことが出来る反面、学習に時間がかかったり勾配損失のような問題が発生するため、その問題を解決するための手法が色々考えられているんだと改めて実感できる章だったと思います。従来手法であれば入力データの特徴抽出に悩むわけですが、Deep Learningはそこは悩まないで良い分、ネットワーク設計と学習自体をどう進めるかについて悩むことになるんだなぁーと。