ウィキサイトをダウンロードしたいとします。 2000の記事しかないようですが、wikiテクノロジーを使用すると、各記事のバージョンがいくつか保持されます...したがって、それでもテラバイトになる可能性があります。
だから私の質問は-サイトをダウンロードせずに-特定のWebサイトのサイズをどのように見つけることができますか?
ほとんどのウィキはデータをデータベースに保存します。これらは、Webサーバーからダウンロードできる単純なページではなく、データベースへの多数のクエリを使用して、要求時に動的に作成されます。
サイズを見つけるのは難しいでしょう...データベースの合計サイズに加えて、Webアクセス可能なディレクトリ内のサポートファイルが必要になります。
現在の2000の記事すべてをダウンロードしたい場合は、各記事のデータベースにクエリを実行するスクリプトを記述して、それをマシンにダウンロードできると思います。ただし、各記事の改訂版にアクセスし、削除された可能性のある記事にアクセスするには、問題のwikiソフトウェアのURLスキームを理解する必要があります。次に、これらすべてのファイルのサイズを測定できます。しかし、すべてがWebサーバーとデータベースサーバーに保存されている場合、サイズを正確に把握できない場合があります。