画像を2つの個別のカテゴリのいずれかに分類するニューラルネットワークを実装しようとしています。ただし、問題は、現在どの入力でも常に0が予測されることであり、その理由はよくわかりません。
これが私の特徴抽出方法です:
def extract(file):
# Resize and subtract mean pixel
img = cv2.resize(cv2.imread(file), (224, 224)).astype(np.float32)
img[:, :, 0] -= 103.939
img[:, :, 1] -= 116.779
img[:, :, 2] -= 123.68
# Normalize features
img = (img.flatten() - np.mean(img)) / np.std(img)
return np.array([img])
勾配降下ルーチンは次のとおりです。
def fit(x, y, t1, t2):
"""Training routine"""
ils = x.shape[1] if len(x.shape) > 1 else 1
labels = len(set(y))
if t1 is None or t2 is None:
t1 = randweights(ils, 10)
t2 = randweights(10, labels)
params = np.concatenate([t1.reshape(-1), t2.reshape(-1)])
res = grad(params, ils, 10, labels, x, y)
params -= 0.1 * res
return unpack(params, ils, 10, labels)
これが私の前方および後方(勾配)伝播です。
def forward(x, theta1, theta2):
"""Forward propagation"""
m = x.shape[0]
# Forward prop
a1 = np.vstack((np.ones([1, m]), x.T))
z2 = np.dot(theta1, a1)
a2 = np.vstack((np.ones([1, m]), sigmoid(z2)))
a3 = sigmoid(np.dot(theta2, a2))
return (a1, a2, a3, z2, m)
def grad(params, ils, hls, labels, x, Y, lmbda=0.01):
"""Compute gradient for hypothesis Theta"""
theta1, theta2 = unpack(params, ils, hls, labels)
a1, a2, a3, z2, m = forward(x, theta1, theta2)
d3 = a3 - Y.T
print('Current error: {}'.format(np.mean(np.abs(d3))))
d2 = np.dot(theta2.T, d3) * (np.vstack([np.ones([1, m]), sigmoid_prime(z2)]))
d3 = d3.T
d2 = d2[1:, :].T
t1_grad = np.dot(d2.T, a1.T)
t2_grad = np.dot(d3.T, a2.T)
theta1[0] = np.zeros([1, theta1.shape[1]])
theta2[0] = np.zeros([1, theta2.shape[1]])
t1_grad = t1_grad + (lmbda / m) * theta1
t2_grad = t2_grad + (lmbda / m) * theta2
return np.concatenate([t1_grad.reshape(-1), t2_grad.reshape(-1)])
そして、ここに私の予測関数があります:
def predict(theta1, theta2, x):
"""Predict output using learned weights"""
m = x.shape[0]
h1 = sigmoid(np.hstack((np.ones([m, 1]), x)).dot(theta1.T))
h2 = sigmoid(np.hstack((np.ones([m, 1]), h1)).dot(theta2.T))
return h2.argmax(axis=1)
繰り返しごとにエラー率が徐々に減少し、一般的に1.26e-05付近で収束していることがわかります。
私が今まで試したこと:
編集:h2の平均出力は次のようになります。
[0.5004899 0.45264441]
[0.50048522 0.47439413]
[0.50049019 0.46557124]
[0.50049261 0.45297816]
したがって、すべての検証例で非常によく似たシグモイド出力です。
一週間半の研究の後、私は問題が何であるかを理解したと思います。コード自体に問題はありません。実装が正常に分類されない2つの問題は、学習に費やした時間と学習率/正則化パラメーターの適切な選択です。
私は今、いくつかの本のために学習ルーチンを実行しており、それはすでに75%の精度を押し上げていますが、まだ改善の余地はたくさんあります。
私のネットワークは常に同じクラスを予測します。何が問題ですか?
これは何回かありました。私は現在あなたのコードを検証するのが面倒ですが、同じ症状を持っているがおそらく根本的な問題が異なる他の人にも役立つかもしれないいくつかの一般的なヒントを与えることができると思います。
ネットワークが予測できるすべてのクラスiについて、以下を試してください。
これが機能しない場合は、4つのエラーソースが考えられます。
float32
しかし、実際は整数です。詳細については sklearn を参照してください。
アイデアは、小さなトレーニングデータセット(おそらく1つのアイテムのみ)から始めることです。次に、モデルはデータに完全に適合できる必要があります。これが機能する場合、少し大きいデータセットを作成します。トレーニングエラーは、ある時点でわずかにupになるはずです。これにより、データをモデル化するモデルの能力が明らかになります。
他のクラスが表示される頻度を確認します。 1つのクラスが他のクラスを支配している場合(たとえば、1つのクラスがデータの99.9%である場合)、これは問題です。 「異常値検出」技術を探してください。
0.001
はよく使用されます/動作します。これは、Adamをオプティマイザーとして使用する場合にも関係します。これは reddit に触発されています:
imbalanced-learn
私にも同じことが起こりました。不均衡なデータセット(クラス0と1の間でそれぞれ約66%-33%のサンプル分布)があり、ネットは最初の反復後のすべてのサンプルに対して常に0.0
を出力していました。
私の問題は単に学習率が高すぎるでした。 1e-05
に切り替えると、問題は解決しました。
より一般的には、パラメーターの更新前に印刷することをお勧めします。
そして、パラメーターの更新後に同じ3つの項目を確認します。次のバッチで表示されるのは、ネット出力のgradualの変化です。学習率が高すぎると、すでに2回目の反復で、ネット出力はバッチ内のすべてのサンプルのすべての1.0
sまたはすべての0.0
sのいずれかを撃ちます。
他の誰かがこの問題に遭遇した場合に備えてください。私はdeeplearning4j
Lenet(CNN)アーキテクチャを使用していました。すべてのテストで最後のトレーニングフォルダーの最終出力を提供し続けました。 increasing my batchsize
とshuffling the training data
で解決できたので、各バッチには少なくとも複数のサンプルが含まれていましたフォルダ。データクラスのバッチサイズは1で、これは実際にはdangerous
でした。
編集:最近見た別のことは、dataset
が大きいにもかかわらず、クラスごとにトレーニングサンプルのセットが限られていることです。 egneural-network
をトレーニングしてhuman faces
を認識するが、最大の発言数21の異なる顔= person
は、データセットがたとえば10,0persons
で構成されていることを意味します。したがって、_20,0dataset
は合計でfaces
です。より良いdataset
は10異なるfaces
for 10,0persons
です。したがってdataset
は10,000,00faces
合計。これは、データを1つのクラスにオーバーフィットしないようにする場合に必要です。したがって、network
は簡単に一般化し、より良い予測を生成できます。