web-dev-qa-db-ja.com

CNNでのReLuとドロップアウト

私は畳み込みニューラルネットワークを勉強しています。 CNNのいくつかのレイヤーについて混乱しています。

ReLuについて...私はそれが無限ロジスティック関数の合計であることを知っていますが、ReLuはどの上位層にも接続していません。なぜReLuが必要なのですか?

ドロップアウトについて...ドロップアウトはどのように機能しますか? G.ヒントンのビデオトークを聞きました。彼は、重みをトレーニングするときにランダムにノードの半分を無視し、予測するときに重みを半分にする戦略があると言いました。彼はランダムな森から発想を得ており、これらのランダムに訓練されたモデルの幾何平均を計算するのとまったく同じように機能すると言います。

この戦略はドロップアウトと同じですか?

誰かがこれを解決するのを手伝ってくれる?

16
user3783676

ReLu:整流器関数はアクティベーション関数f(x)= Max(0、x)であり、他の活性化関数と同様にニューロンは、整流器活性化関数を使用するノードをReLuノードと呼びます。これを使用する主な理由は、一般化の精度に大きな違いをもたらすことなく、シグモイドや双曲線タンジェントなどの従来の活性化関数と比較して効率的に計算できるためです。線形活性化関数の代わりに整流器活性化関数を使用して、ネットワークに非線形性を追加します。それ以外の場合、ネットワークは線形関数しか計算できません。

ドロップアウト:はい、説明されている手法はドロップアウトと同じです。ノードをランダムに無視することが有用である理由は、ノード間の相互依存関係が発生するのを防ぐためです(つまり、ノードは別のノードからの入力値に依存する関数を学習しないため)、これによりネットワークはより堅牢な関係を学習できます。ドロップアウトを実装することは、ネットワークの委員会から平均を取ることとほとんど同じ影響がありますが、必要な時間とストレージの両方でコストが大幅に少なくなります。

23
Hungry