私は現在、DRBDを使用して2台のマシン間でsambaファイルサーバーを複製しています。マスターで書き込みが失敗することがあります。これが発生した場合、リソースのステータス(cat/proc/drbdを使用)は次のとおりです。
0: cs:Connected ro:Primary/Secondary ds:UpToDate/UpToDate A r---n
正常に動作する場合のステータスは次のとおりです。
0: cs:Connected ro:Primary/Secondary ds:UpToDate/UpToDate A r----
私が見ることができる唯一の違いは、行末の「n」です。リソースにアクティビティがないときに発生するため、これは輻輳に関連しているとは思いません。 drbdadmを使用して切断および再接続すると、問題が解決します。
だから、私の質問は:その「n」はどういう意味ですか?
ご協力ありがとうございました!
これらのビットに関するドキュメントが見つからなかったため、drbd-8.3.4ソースコードを掘り下げました。 'n'は、実際には同期の輻輳に関連しています。コードは次のとおりです。
これは/ proc/drbdを更新するための呼び出しです
drdb /drbd_main.c内
seq_printf(seq,
201 "%2d: cs:%s ro:%s/%s ds:%s/%s %c %c%c%c%c%c\n"
202 " ns:%u nr:%u dw:%u dr:%u al:%u bm:%u "
203 "lo:%d pe:%d ua:%d ap:%d ep:%d wo:%c",
204 i, sn,
205 drbd_role_str(mdev->state.role),
206 drbd_role_str(mdev->state.peer),
207 drbd_disk_str(mdev->state.disk),
208 drbd_disk_str(mdev->state.pdsk),
209 (mdev->net_conf == NULL ? ' ' :
210 (mdev->net_conf->wire_protocol - DRBD_PROT_A+'A')),
211 mdev->state.susp ? 's' : 'r',
212 mdev->state.aftr_isp ? 'a' : '-',
213 mdev->state.peer_isp ? 'p' : '-',
214 mdev->state.user_isp ? 'u' : '-',
215 mdev->congestion_reason ?: '-',
216 mdev->send_cnt/2,
217 mdev->recv_cnt/2,
218 mdev->writ_cnt/2,
219 mdev->read_cnt/2,
220 mdev->al_writ_cnt,
221 mdev->bm_writ_cnt,
222 atomic_read(&mdev->local_cnt),
223 atomic_read(&mdev->ap_pending_cnt) +
224 atomic_read(&mdev->rs_pending_cnt),
225 atomic_read(&mdev->unacked_cnt),
226 atomic_read(&mdev->ap_bio_cnt),
227 mdev->epochs,
228 write_ordering_chars[mdev->write_ordering]
229 );
これは、「n」フィールドがcongression_reasonから来ていることを意味します。そして、これは次のコードで設定されています(行3171):
drdb /drbd_main.c内
3140 /**
3141 * drbd_congested() - Callback for pdflush
3142 * @congested_data: User data
3143 * @bdi_bits: Bits pdflush is currently interested in
3144 *
3145 * Returns 1<<BDI_async_congested and/or 1<<BDI_sync_congested if we are congested.
3146 */
3147 static int drbd_congested(void *congested_data, int bdi_bits)
3148 {
3149 struct drbd_conf *mdev = congested_data;
3150 struct request_queue *q;
3151 char reason = '-';
3152 int r = 0;
3153
3154 if (!__inc_ap_bio_cond(mdev)) {
3155 /* DRBD has frozen IO */
3156 r = bdi_bits;
3157 reason = 'd';
3158 goto out;
3159 }
3160
3161 if (get_ldev(mdev)) {
3162 q = bdev_get_queue(mdev->ldev->backing_bdev);
3163 r = bdi_congested(&q->backing_dev_info, bdi_bits);
3164 put_ldev(mdev);
3165 if (r)
3166 reason = 'b';
3167 }
3168
3169 if (bdi_bits & (1 << BDI_async_congested) && test_bit(NET_CONGESTED, &mdev->flags)) {
3170 r |= (1 << BDI_async_congested);
3171 reason = reason == 'b' ? 'a' : 'n';
3172 }
3173
3174 out:
3175 mdev->congestion_reason = reason;
3176 return r;
3177 }
お役に立てれば