web-dev-qa-db-ja.com

gsutil rsyncの同期ステージが遅いですか?

WebサーバーのバックアップとしてGCSを使い始めたところです。 1台のサーバーには120万のJPEG(3.5TB)があり、これはすべて10時間ほどで完璧に同期されました。

もう1つは250万のJPEGを持っています(サムネイル/プレビューだけですが、合計300GB)。私が初めてそれをしたとき、「建物の同期状態」は250万すべてを非常に迅速に通過しました。数分。しかし、セッションが中断され(wifiがドロップされ)、SSHで接続して再度実行しようとすると、「ソースリストで」プロンプトが10000、20000、30000をすばやく切り抜けます。その後、ほぼ停止します。 30分後、それはわずか300,000になります。宛先のファイルも特定する必要があることはわかっていますが、「ソースリストで...」のエコーが大幅に遅くなるとは思いませんか?

ファイルシステムに問題があることを示唆していますか?もしそうなら、何をチェックすればよいですか?

それとも、何らかの理由で予想される動作ですか?

1つのバケットに200万ファイルのgsutilrsyncを使用しようとするのは悪い考えですか?バケットに入れることができるファイルの数に関するグーグルのガイドラインが見つからなかったので、数十億/無制限だと思いますか?

FWIWファイルはすべてネストされたサブディレクトリにあり、1つのディレクトリに2000個以下のファイルがあります。

ありがとう

編集:私が使用している正確なコマンドは:

gsutil -m rsync -r /var/www/ gs://mybucketname/var/www
6
Codemonkey

私はその変化を発見しました

output_chunk.writelines(unicode(''.join(current_chunk)))

output_chunk.write(unicode(''.join(current_chunk)))

/gsutil/gslib/commands/rsync.pyで大きな違いがあります。 GSチームのMikeの助けに感謝します-この単純な変更はすでにgithubで公開されています:

https://github.com/GoogleCloudPlatform/gsutil/commit/a6dcc7aa7706bf9deea3b1d243ecf048a06a64f2

4
Codemonkey