TensorFlow-L2損失を伴う正則化、最後の重みだけでなく、すべての重みに適用する方法？

Question

Udacity DeepLearningコースの一部であるANNで遊んでいます。

私は、L2損失を使用して1つの隠れたReLUレイヤーでネットワークに一般化を導入することを伴う割り当てを持っています。出力層の重みだけでなく、すべての重みがペナルティを受けるように適切に導入する方法を疑問に思います。

ネットワークのコードwithout一般化は投稿の下部にあります（実際にトレーニングを実行するコードは質問の範囲外です）。

L2を導入する明らかな方法は、損失計算を次のようなものに置き換えることです（ベータが0.01の場合）。

loss = tf.reduce_mean( tf.nn.softmax_cross_entropy_with_logits(out_layer, tf_train_labels) + 0.01*tf.nn.l2_loss(out_weights))

ただし、このような場合、出力レイヤーの重みの値が考慮されます。どのようにして、隠れたReLUレイヤーに入る重みに適切にペナルティを科すのかわかりません。それはまったく必要ですか、または出力層のペナルティを導入すると、何らかの形で隠された重みもチェックされますか？

#some importing from __future__ import print_function import numpy as np import tensorflow as tf from six.moves import cPickle as pickle from six.moves import range #loading data pickle_file = '/home/maxkhk/Documents/Udacity/DeepLearningCourse/SourceCode/tensorflow/examples/udacity/notMNIST.pickle' with open(pickle_file, 'rb') as f: save = pickle.load(f) train_dataset = save['train_dataset'] train_labels = save['train_labels'] valid_dataset = save['valid_dataset'] valid_labels = save['valid_labels'] test_dataset = save['test_dataset'] test_labels = save['test_labels'] del save # hint to help gc free up memory print('Training set', train_dataset.shape, train_labels.shape) print('Validation set', valid_dataset.shape, valid_labels.shape) print('Test set', test_dataset.shape, test_labels.shape) #prepare data to have right format for tensorflow #i.e. data is flat matrix, labels are onehot image_size = 28 num_labels = 10 def reformat(dataset, labels): dataset = dataset.reshape((-1, image_size * image_size)).astype(np.float32) # Map 0 to [1.0, 0.0, 0.0 ...], 1 to [0.0, 1.0, 0.0 ...] labels = (np.arange(num_labels) == labels[:,None]).astype(np.float32) return dataset, labels train_dataset, train_labels = reformat(train_dataset, train_labels) valid_dataset, valid_labels = reformat(valid_dataset, valid_labels) test_dataset, test_labels = reformat(test_dataset, test_labels) print('Training set', train_dataset.shape, train_labels.shape) print('Validation set', valid_dataset.shape, valid_labels.shape) print('Test set', test_dataset.shape, test_labels.shape) #now is the interesting part - we are building a network with #one hidden ReLU layer and out usual output linear layer #we are going to use SGD so here is our size of batch batch_size = 128 #building tensorflow graph graph = tf.Graph() with graph.as_default(): # Input data. For the training data, we use a placeholder that will be fed # at run time with a training minibatch. tf_train_dataset = tf.placeholder(tf.float32, shape=(batch_size, image_size * image_size)) tf_train_labels = tf.placeholder(tf.float32, shape=(batch_size, num_labels)) tf_valid_dataset = tf.constant(valid_dataset) tf_test_dataset = tf.constant(test_dataset) #now let's build our new hidden layer #that's how many hidden neurons we want num_hidden_neurons = 1024 #its weights hidden_weights = tf.Variable( tf.truncated_normal([image_size * image_size, num_hidden_neurons])) hidden_biases = tf.Variable(tf.zeros([num_hidden_neurons])) #now the layer itself. It multiplies data by weights, adds biases #and takes ReLU over result hidden_layer = tf.nn.relu(tf.matmul(tf_train_dataset, hidden_weights) + hidden_biases) #time to go for output linear layer #out weights connect hidden neurons to output labels #biases are added to output labels out_weights = tf.Variable( tf.truncated_normal([num_hidden_neurons, num_labels])) out_biases = tf.Variable(tf.zeros([num_labels])) #compute output out_layer = tf.matmul(hidden_layer,out_weights) + out_biases #our real output is a softmax of prior result #and we also compute its cross-entropy to get our loss loss = tf.reduce_mean( tf.nn.softmax_cross_entropy_with_logits(out_layer, tf_train_labels)) #now we just minimize this loss to actually train the network optimizer = tf.train.GradientDescentOptimizer(0.5).minimize(loss) #Nice, now let's calculate the predictions on each dataset for evaluating the #performance so far # Predictions for the training, validation, and test data. train_prediction = tf.nn.softmax(out_layer) valid_relu = tf.nn.relu( tf.matmul(tf_valid_dataset, hidden_weights) + hidden_biases) valid_prediction = tf.nn.softmax( tf.matmul(valid_relu, out_weights) + out_biases) test_relu = tf.nn.relu( tf.matmul( tf_test_dataset, hidden_weights) + hidden_biases) test_prediction = tf.nn.softmax(tf.matmul(test_relu, out_weights) + out_biases)

keveman · Accepted Answer

hidden_weights、hidden_biases、out_weights、およびout_biasesはすべて、作成するモデルパラメーターです。次のように、これらすべてのパラメーターにL2正則化を追加できます。

loss = (tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits( logits=out_layer, labels=tf_train_labels)) + 0.01*tf.nn.l2_loss(hidden_weights) + 0.01*tf.nn.l2_loss(hidden_biases) + 0.01*tf.nn.l2_loss(out_weights) + 0.01*tf.nn.l2_loss(out_biases))

PhABC · Answer

これを行うより短くてスケーラブルな方法は次のとおりです。

vars = tf.trainable_variables() lossL2 = tf.add_n([ tf.nn.l2_loss(v) for v in vars ]) * 0.001

これは基本的に、すべてのトレーニング可能な変数のl2_lossを合計します。また、コストに追加する変数のみを指定して上記の2行目を使用する辞書を作成することもできます。次に、損失の合計を計算するために、lossL2にソフトマックスクロスエントロピー値を追加できます。

編集：Piotr Dabkowskiが述べたように、上記のコードはバイアスも正規化します。これは、2行目にifステートメントを追加することで回避できます。

lossL2 = tf.add_n([ tf.nn.l2_loss(v) for v in vars if 'bias' not in v.name ]) * 0.001

これは、他の変数を除外するために使用できます。

Yousof Erfani · Answer

実際、通常、バイアス用語（インターセプト）は正規化されません。だから、私は：

loss = (tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits( logits=out_layer, labels=tf_train_labels)) + 0.01*tf.nn.l2_loss(hidden_weights) + 0.01*tf.nn.l2_loss(out_weights))

切片がy値に追加されると、切片の項にペナルティを課すことにより、y値が変更され、定数cが切片に追加されます。持っていてもいなくても結果は変わりませんが、計算が必要です