WebサーバーのバックアップとしてGCSを使い始めたところです。 1台のサーバーには120万のJPEG(3.5TB)があり、これはすべて10時間ほどで完璧に同期されました。
もう1つは250万のJPEGを持っています(サムネイル/プレビューだけですが、合計300GB)。私が初めてそれをしたとき、「建物の同期状態」は250万すべてを非常に迅速に通過しました。数分。しかし、セッションが中断され(wifiがドロップされ)、SSHで接続して再度実行しようとすると、「ソースリストで」プロンプトが10000、20000、30000をすばやく切り抜けます。その後、ほぼ停止します。 30分後、それはわずか300,000になります。宛先のファイルも特定する必要があることはわかっていますが、「ソースリストで...」のエコーが大幅に遅くなるとは思いませんか?
ファイルシステムに問題があることを示唆していますか?もしそうなら、何をチェックすればよいですか?
それとも、何らかの理由で予想される動作ですか?
1つのバケットに200万ファイルのgsutilrsyncを使用しようとするのは悪い考えですか?バケットに入れることができるファイルの数に関するグーグルのガイドラインが見つからなかったので、数十億/無制限だと思いますか?
FWIWファイルはすべてネストされたサブディレクトリにあり、1つのディレクトリに2000個以下のファイルがあります。
ありがとう
編集:私が使用している正確なコマンドは:
gsutil -m rsync -r /var/www/ gs://mybucketname/var/www
私はその変化を発見しました
output_chunk.writelines(unicode(''.join(current_chunk)))
に
output_chunk.write(unicode(''.join(current_chunk)))
/gsutil/gslib/commands/rsync.pyで大きな違いがあります。 GSチームのMikeの助けに感謝します-この単純な変更はすでにgithubで公開されています:
https://github.com/GoogleCloudPlatform/gsutil/commit/a6dcc7aa7706bf9deea3b1d243ecf048a06a64f2